Eine der größten Überprüfungsstudien aller Zeiten erschüttert das Vertrauen in sozialwissenschaftliche Befunde – und zeigt, wie schwer das Problem zu lösen ist.
Es klingt wie eine Hiobsbotschaft für die Sozial- und Verhaltenswissenschaften: Etwa jede zweite Studie aus diesen Bereichen lässt sich nicht unabhängig reproduzieren. Was Forscherinnen und Forscher in ihren Labors und mit ihren Datensätzen glauben herausgefunden zu haben, hält einer erneuten Überprüfung schlicht nicht stand. Dieses ernüchternde Ergebnis liefert ein beispielloses internationales Großprojekt, dessen Resultate nun im Fachjournal Nature veröffentlicht wurden.
Das Projekt trägt den sperrigen Namen »Systematizing Confidence in Open Research and Evidence«, kurz SCORE, und ist in seiner Dimension bislang einzigartig: Hunderte Wissenschaftlerinnen und Wissenschaftler aus mehreren Dutzend Ländern beteiligten sich daran, mehr als 100 Studien aus führenden Fachzeitschriften unter die Lupe zu nehmen. Die untersuchten Disziplinen reichen von Betriebswirtschaft über Ökonomie, Bildungsforschung und Politikwissenschaft bis hin zu Psychologie und Soziologie. Ein breites Spektrum also – und ein ernüchterndes Gesamtbild: Nur 49 Prozent der 164 geprüften Arbeiten ließen sich erfolgreich replizieren.
Was bedeutet »Reproduzierbarkeit« überhaupt?
Bevor man die Zahlen einordnen kann, lohnt ein Blick auf die Begrifflichkeiten, denn das SCORE-Team unterscheidet sorgfältig zwischen drei verwandten, aber verschiedenen Konzepten. Replizierbarkeit meint, ob eine neue Analyse mit anderen Daten zur selben Fragestellung zum gleichen Ergebnis kommt. Reproduzierbarkeit prüft, ob andere Forschende mit denselben Originaldaten und derselben Analysemethode identische Resultate erzielen. Robustheit schließlich fragt, ob ein abweichendes statistisches Verfahren, angewandt auf dieselben Daten, die ursprünglichen Schlussfolgerungen bestätigt.
Diese Dreiteilung ist kein akademisches Glasperlenspiel. Sie zeigt, dass wissenschaftliche Glaubwürdigkeit ein vielschichtiges Konstrukt ist – und dass Schwächen auf ganz verschiedenen Ebenen auftreten können. Die präzise Reproduzierbarkeit lag im SCORE-Projekt bei 54 Prozent, bei einem etwas großzügigeren Kriterium immerhin bei 74 Prozent. Die Robustheit ergab ein gemischtes Bild: Zwar fand sich in 74 Prozent der Fälle wenigstens ein Analytiker, der das ursprüngliche Ergebnis bestätigte – doch in nur 34 Prozent der Fälle waren sich alle Prüfer einig.
Kein verlässlicher Frühwarnindikator
Besonders beunruhigend ist ein weiterer Befund des Projekts: Es gibt schlicht keine zuverlässige Methode, im Voraus zu erkennen, welche Studien einer Nachprüfung standhalten werden und welche nicht. Das SCORE-Team hatte gehofft, so etwas wie eine wissenschaftliche »Qualitätssignatur« zu identifizieren – ein Merkmal oder eine Kombination von Merkmalen, anhand derer Leserinnen und Leser einschätzen könnten, wie vertrauenswürdig ein Befund ist. Dieser Wunsch blieb weitgehend unerfüllt.
Mehr als ein Dutzend potenzieller Indikatoren wurden untersucht: ob eine Studie Einschränkungen benennt, ob sie Datentransparenzstandards einhält, wie oft sie zitiert wurde. Nur ein einziger Faktor korrelierte deutlich mit Reproduzierbarkeit – die Verfügbarkeit der Rohdaten. Lediglich ein Drittel der untersuchten Studien hatte die zugrundeliegenden Daten und den Analysecode öffentlich zugänglich gemacht. Genau diese Studien schnitten bei der Reproduzierbarkeit deutlich besser ab.
Auch der Einsatz Künstlicher Intelligenz enttäuschte zunächst: KI-Modelle, die trainiert wurden, menschliche Einschätzungen zur Replizierbarkeit nachzuahmen, scheiterten daran, zuverlässig vorauszusagen, welche Studien standhalten würden. Ein Nachfolgeprojekt des Center for Open Science testet derzeit neuere KI-Ansätze in einem Wettbewerb mit Geldpreisen – mit ersten vielversprechenden Ergebnissen. Sollte eine solche Methode reifen, könnte sie künftig helfen, besonders wichtige, aber fragwürdige Studien gezielt für eine vollständige Nachprüfung auszuwählen.
Ein systemisches Problem – aber kein Skandal
Die Befunde fügen sich in ein bereits bekanntes Muster. Frühere Studien in einzelnen Disziplinen – vor allem der Psychologie – hatten ähnliche Replikationsquoten ergeben. Das SCORE-Projekt bestätigt nun: Das Problem ist kein Einzelfall, sondern strukturell und disziplinübergreifend. »Das Ausmaß der kollaborativen Anstrengung ist beeindruckend«, sagt Kathryn Zeiler, Ökonomin und Rechtswissenschaftlerin an der Boston University, die nicht an der Studie beteiligt war.
Doch was sind die Ursachen? Wissenschaftsbetrieb und Anreizstrukturen stehen im Mittelpunkt der Kritik. Wer Karriere machen will, muss publizieren – und zwar viel. Positive, überraschende Ergebnisse landen leichter in renommierten Zeitschriften als nüchterne Negativbefunde oder geduldige Replikationsstudien. Diese ›Publish-or-perish‹-Kultur¹ begünstigt Quantität über Qualität und schafft strukturelle Fehlanreize.
¹engl. für »veröffentliche oder gehe unter«, sinngemäß: »wer schreibt, der bleibt«.
Brian Nosek, Leiter des SCORE-Projekts und Direktor des »Center for Open Science« an der University of Virginia, warnt jedoch vor vorschnellen Schlüssen. Gescheiterte Replikationen seien kein Beleg für Betrug oder Fahrlässigkeit, wie manche politischen Stimmen – auch aus der Trump-Administration – behaupten. »Jedes einzelne Scheitern einer Replikation stellt das ursprüngliche Ergebnis nicht unter Generalverdacht«, betont Nosek. Es sei schlicht neues Beweismaterial, das zu weiteren Fragen und schließlich zu belastbareren Antworten führe.
Und jetzt?
Kelly Cobey, Metawissenschaftlerin am University of Ottawa Heart Institute, bringt es auf den Punkt: Es brauche einen Kulturwandel. Evaluations- und Förderstrukturen müssten so reformiert werden, dass sie wissenschaftliche Sorgfalt und Qualität belohnen statt bloßer Publikationsmengen. Die gute Nachricht: Das Bewusstsein für das Problem wächst, Transparenzstandards verschärfen sich, und immer mehr Forschende engagieren sich für eine offenere, nachprüfbarere Wissenschaft.
Das SCORE-Projekt ist selbst ein Zeichen dieses Wandels – ein Mammutprojekt gelebter wissenschaftlicher Selbstkritik. Und das ist, bei allem Ernüchternden, vielleicht die am meisten ermutigende Botschaft der ganzen Geschichte.
© ÆON-Z e.V. Thinktank. Hinweis: Bei der Recherche und Analyse dieses Beitrags wurde unterstützend Künstliche Intelligenz eingesetzt. Die redaktionelle Verantwortung für den Inhalt liegt bei der Redaktion. Alle Rechte vorbehalten, all rights reserved. Nachdruck und Weitergabe an Dritte untersagt.
