{"id":2616,"date":"2026-04-02T01:39:41","date_gmt":"2026-04-01T23:39:41","guid":{"rendered":"https:\/\/aeon-z.org\/?p=2616"},"modified":"2026-04-03T11:57:32","modified_gmt":"2026-04-03T09:57:32","slug":"die-haelfte-der-sozialwissenschaften-steht-auf-wackeligem-fundament","status":"publish","type":"post","link":"https:\/\/aeon-z.org\/?p=2616","title":{"rendered":"Die H\u00e4lfte der Sozialwissenschaften steht auf wackeligem Fundament"},"content":{"rendered":"<p style=\"text-align: left;\"><em><span style=\"color: #000000;\">Eine der gr\u00f6\u00dften \u00dcberpr\u00fcfungs- und Peer-Review-Studien aller Zeiten ersch\u00fcttert das Vertrauen in sozialwissenschaftliche Befunde \u2013 und zeigt, wie schwer das Problem zu l\u00f6sen ist.<\/span><\/em><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Es klingt wie eine Hiobsbotschaft f\u00fcr die Sozial- und Verhaltenswissenschaften: Etwa jede zweite Studie aus diesen Bereichen l\u00e4sst sich nicht unabh\u00e4ngig reproduzieren. Was Forscherinnen und Forscher in ihren Labors und mit ihren Datens\u00e4tzen glauben herausgefunden zu haben, h\u00e4lt einer erneuten \u00dcberpr\u00fcfung schlicht nicht stand. Dieses ern\u00fcchternde Ergebnis liefert ein beispielloses internationales Gro\u00dfprojekt, dessen Resultate nun im Fachjournal <a href=\"https:\/\/www.nature.com\/articles\/s41586-025-10078-y\" target=\"_blank\" rel=\"noopener\">Nature<\/a> ver\u00f6ffentlicht wurden.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Das Projekt tr\u00e4gt den sperrigen Namen \u00bbSystematizing Confidence in Open Research and Evidence\u00ab, kurz SCORE, und ist in seiner Dimension bislang einzigartig: Hunderte Wissenschaftlerinnen und Wissenschaftler aus mehreren Dutzend L\u00e4ndern beteiligten sich daran, mehr als 100 Studien aus f\u00fchrenden Fachzeitschriften unter die Lupe zu nehmen. Die untersuchten Disziplinen reichen von Betriebswirtschaft \u00fcber \u00d6konomie, Bildungsforschung und Politikwissenschaft bis hin zu Psychologie und Soziologie. Ein breites Spektrum also \u2013 und ein ern\u00fcchterndes Gesamtbild: Nur 49 Prozent der 164 gepr\u00fcften Arbeiten lie\u00dfen sich erfolgreich replizieren.<\/span><\/p>\n<h5 style=\"text-align: left;\"><strong><span style=\"color: #000000;\">Was bedeutet \u00bbReproduzierbarkeit\u00ab \u00fcberhaupt?<\/span><\/strong><\/h5>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Bevor man die Zahlen einordnen kann, lohnt ein Blick auf die Begrifflichkeiten, denn das SCORE-Team unterscheidet sorgf\u00e4ltig zwischen drei verwandten, aber verschiedenen Konzepten. Replizierbarkeit meint, ob eine neue Analyse mit anderen Daten zur selben Fragestellung zum gleichen Ergebnis kommt. Reproduzierbarkeit pr\u00fcft, ob andere Forschende mit denselben Originaldaten und derselben Analysemethode identische Resultate erzielen. Robustheit schlie\u00dflich fragt, ob ein abweichendes statistisches Verfahren, angewandt auf dieselben Daten, die urspr\u00fcnglichen Schlussfolgerungen best\u00e4tigt.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Diese Dreiteilung ist kein akademisches <a href=\"https:\/\/de.wikipedia.org\/wiki\/Das_Glasperlenspiel\" target=\"_blank\" rel=\"noopener\">Glasperlenspiel<\/a>. Sie zeigt, dass wissenschaftliche Glaubw\u00fcrdigkeit ein vielschichtiges Konstrukt ist \u2013 und dass Schw\u00e4chen auf ganz verschiedenen Ebenen auftreten k\u00f6nnen. Die pr\u00e4zise Reproduzierbarkeit lag im SCORE-Projekt bei 54 Prozent, bei einem etwas gro\u00dfz\u00fcgigeren Kriterium immerhin bei 74 Prozent. Die Robustheit ergab ein gemischtes Bild: Zwar fand sich in 74 Prozent der F\u00e4lle wenigstens ein Analytiker, der das urspr\u00fcngliche Ergebnis best\u00e4tigte \u2013 doch in nur 34 Prozent der F\u00e4lle waren sich alle Pr\u00fcfer einig.<\/span><\/p>\n<h5 style=\"text-align: left;\"><strong><span style=\"color: #000000;\">Kein verl\u00e4sslicher Fr\u00fchwarnindikator<\/span><\/strong><\/h5>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Besonders beunruhigend ist ein weiterer Befund des Projekts: Es gibt schlicht keine zuverl\u00e4ssige Methode, im Voraus zu erkennen, welche Studien einer Nachpr\u00fcfung standhalten werden und welche nicht. Das SCORE-Team hatte gehofft, so etwas wie eine wissenschaftliche \u00bbQualit\u00e4tssignatur\u00ab zu identifizieren \u2013 ein Merkmal oder eine Kombination von Merkmalen, anhand derer Leserinnen und Leser einsch\u00e4tzen k\u00f6nnten, wie vertrauensw\u00fcrdig ein Befund ist. Dieser Wunsch blieb weitgehend unerf\u00fcllt.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Mehr als ein Dutzend potenzieller Indikatoren wurden untersucht: ob eine Studie Einschr\u00e4nkungen benennt, ob sie Datentransparenzstandards einh\u00e4lt, wie oft sie zitiert wurde. Nur ein einziger Faktor korrelierte deutlich mit Reproduzierbarkeit \u2013 die Verf\u00fcgbarkeit der Rohdaten. Lediglich ein Drittel der untersuchten Studien hatte die zugrundeliegenden Daten und den Analysecode \u00f6ffentlich zug\u00e4nglich gemacht. Genau diese Studien schnitten bei der Reproduzierbarkeit deutlich besser ab.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Auch der Einsatz K\u00fcnstlicher Intelligenz entt\u00e4uschte zun\u00e4chst: KI-Modelle, die trainiert wurden, menschliche Einsch\u00e4tzungen zur Replizierbarkeit nachzuahmen, scheiterten daran, zuverl\u00e4ssig vorauszusagen, welche Studien standhalten w\u00fcrden. Ein Nachfolgeprojekt des Center for Open Science testet derzeit neuere KI-Ans\u00e4tze in einem Wettbewerb mit Geldpreisen \u2013 mit ersten vielversprechenden Ergebnissen. Sollte eine solche Methode reifen, k\u00f6nnte sie k\u00fcnftig helfen, besonders wichtige, aber fragw\u00fcrdige Studien gezielt f\u00fcr eine vollst\u00e4ndige Nachpr\u00fcfung auszuw\u00e4hlen.<\/span><\/p>\n<h5 style=\"text-align: left;\"><strong><span style=\"color: #000000;\">Ein systemisches Problem \u2013 aber kein Skandal<\/span><\/strong><\/h5>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Die Befunde f\u00fcgen sich in ein bereits bekanntes Muster. Fr\u00fchere Studien in einzelnen Disziplinen \u2013 vor allem der Psychologie \u2013 hatten \u00e4hnliche Replikationsquoten ergeben. Das SCORE-Projekt best\u00e4tigt nun: Das Problem ist kein Einzelfall, sondern strukturell und disziplin\u00fcbergreifend. \u00bb<em>Das Ausma\u00df der kollaborativen Anstrengung ist beeindruckend<\/em>\u00ab, sagt Kathryn Zeiler, \u00d6konomin und Rechtswissenschaftlerin an der Boston University, die nicht an der Studie beteiligt war.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Doch was sind die Ursachen? Wissenschaftsbetrieb und Anreizstrukturen stehen im Mittelpunkt der Kritik. Wer Karriere machen will, muss publizieren \u2013 und zwar viel. Positive, \u00fcberraschende Ergebnisse landen leichter in renommierten Zeitschriften als n\u00fcchterne Negativbefunde oder geduldige Replikationsstudien. Diese \u203aPublish-or-perish\u2039-Kultur\u00b9 beg\u00fcnstigt Quantit\u00e4t \u00fcber Qualit\u00e4t und schafft strukturelle Fehlanreize.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"font-size: 8pt; color: #000000;\"><small>\u00b9engl. f\u00fcr \u00bbver\u00f6ffentliche oder gehe unter\u00ab, sinngem\u00e4\u00df: \u00bbwer schreibt, der bleibt\u00ab.<\/small><\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Brian Nosek, Leiter des SCORE-Projekts und Direktor des \u00bbCenter for Open Science\u00ab an der University of Virginia, warnt jedoch vor vorschnellen Schl\u00fcssen. Gescheiterte Replikationen seien kein Beleg f\u00fcr Betrug oder Fahrl\u00e4ssigkeit, wie manche politischen Stimmen \u2013 auch aus der Trump-Administration \u2013 behaupten. \u00bb<em>Jedes einzelne Scheitern einer Replikation stellt das urspr\u00fcngliche Ergebnis nicht unter Generalverdacht<\/em>\u00ab, betont Nosek. Es sei schlicht neues Beweismaterial, das zu weiteren Fragen und schlie\u00dflich zu belastbareren Antworten f\u00fchre.<\/span><\/p>\n<h5 style=\"text-align: left;\"><strong><span style=\"color: #000000;\">Und jetzt?<\/span><\/strong><\/h5>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Kelly Cobey, Metawissenschaftlerin am University of Ottawa Heart Institute, bringt es auf den Punkt: Es brauche einen Kulturwandel. Evaluations- und F\u00f6rderstrukturen m\u00fcssten so reformiert werden, dass sie wissenschaftliche Sorgfalt und Qualit\u00e4t belohnen statt blo\u00dfer Publikationsmengen. Die gute Nachricht: Das Bewusstsein f\u00fcr das Problem w\u00e4chst, Transparenzstandards versch\u00e4rfen sich, und immer mehr Forschende engagieren sich f\u00fcr eine offenere, nachpr\u00fcfbarere Wissenschaft.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Das SCORE-Projekt ist selbst ein Zeichen dieses Wandels \u2013 ein Mammutprojekt gelebter wissenschaftlicher Selbstkritik. Und das ist, bei allem Ern\u00fcchternden, vielleicht die am meisten ermutigende Botschaft der ganzen Geschichte.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"font-size: 8pt; color: #000000;\"><small>\u00a9 \u00c6ON-Z e.V. Thinktank. Hinweis: Bei der Recherche und Analyse dieses Beitrags wurde unterst\u00fctzend K\u00fcnstliche Intelligenz eingesetzt. Die redaktionelle Verantwortung f\u00fcr den Inhalt liegt bei der Redaktion. Alle Rechte vorbehalten, all rights reserved. Nachdruck und Weitergabe an Dritte untersagt.<\/small><\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Eine der gr\u00f6\u00dften \u00dcberpr\u00fcfungs- und Peer-Review-Studien aller Zeiten ersch\u00fcttert das Vertrauen in sozialwissenschaftliche Befunde \u2013 und zeigt, wie schwer das Problem zu l\u00f6sen ist. Es klingt wie eine Hiobsbotschaft f\u00fcr die Sozial- und Verhaltenswissenschaften: Etwa jede zweite Studie aus diesen Bereichen l\u00e4sst sich nicht unabh\u00e4ngig reproduzieren. Was Forscherinnen und Forscher in ihren Labors und mit&nbsp;&hellip;<\/p>\n","protected":false},"author":2,"featured_media":2617,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[44,27,25],"tags":[],"class_list":["post-2616","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-forschung","category-psychologie","category-soziales"],"_links":{"self":[{"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/posts\/2616","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2616"}],"version-history":[{"count":4,"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/posts\/2616\/revisions"}],"predecessor-version":[{"id":2622,"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/posts\/2616\/revisions\/2622"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/media\/2617"}],"wp:attachment":[{"href":"https:\/\/aeon-z.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2616"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2616"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2616"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}