von Sarah Huemer | Lesezeit: 3 Minuten
Warum Resultate wissenschaftlicher Studien nicht immer einer Wiederholung standhalten und warum kritisches Hinterfragen kontinuierlich notwendig ist, erklärt Felix Holzmeister von der Universität Innsbruck im Gespräch mit „Makademia“.
Was passiert, wenn man 70 Teams aus der Neurowissenschaft den gleichen Datensatz gibt und diese damit neun Hypothesen überprüfen? Sie sollten alle ungefähr zu denselben Ergebnissen kommen – soweit zumindest die weit verbreitete, durchaus berechtigte Annahme. Ein Team der Universität Innsbruck hat diese in einer Studie mit über 200 Neurowissenschaftler, aufgeteilt in 70 Teams, auf den Prüfstand gestellt. Das Ergebnis: „Obwohl die verwendeten Daten identisch sind, hat kein einziges Team denselben Weg von A nach B gewählt: Für keine einzige Hypothese kam dieselbe Auswertungsmethodik zweimal zum Zug“, so Felix Holzmeister, Teil des Forschungsteams. Bei vier aus neun Hypothesen ist sich der Großteil der Teams relativ einig. Hinsichtlich der verbleibenden fünf Hypothesen widerlegen aber zwischen 20 Prozent und 40 Prozent der teilnehmenden Forschungsteams die aufgestellte Hypothese. „Bedenkt man, dass der maximale Grad an Unstimmigkeit bei 50 Prozent liegt, zeigen die Ergebnisse deutlich, dass die Art der Datenauswertung einen großen Einfluss auf die daraus abgeleiteten Schlussfolgerungen haben“, so Holzmeister.
Folglich stellt sich wohl die Gretchenfrage der Wissenschaft, sprich: Wie hat es die Forschung mit der Verlässlichkeit? Sind wissenschaftliche Resultate reproduzierbar und werden somit auch bei einer Wiederholung dieselben Schlussfolgerungen verzeichnet? An der Universität Innsbruck hat sich das oben genannte Team vom Institut für Banken und Finanzen sowie vom Institut für Wirtschaftstheorie, -politik und -geschichte, gebildet, um ebengenau das tun: Wissenschaft auf den Prüfstand zu stellen. Die Forschungsgruppe analysiert, ob Studien – darunter auch aus renommierten Fachzeitschriften – tatsächlich dem „Reproduktionscheck“ standhalten.
Wissenschaft – ein Münzwurf?
Losgetreten wurde die Bewegung im Fachbereich der Psychologie, wo publizierte Studien bereits vor einigen Jahren wiederholt wurden. Ein internationales Team von über 100 Forschern hat dabei herausgefunden, dass lediglich 36 der 100 untersuchten Studien wieder zum selben Schluss gekommen sind. Gleiches Prozedere, anderer Fachbereich: Unter Beteiligung des Teams der Universität Innsbruck wurde auch im Bereich der experimentellen Verhaltensforschung aufgezeigt, dass lediglich zwischen 50 und 60 Prozent reproduzierbar sind. „Mittlerweile gibt es zahlreiche Studien in unterschiedlichen Fachbereichen dazu. Zählt man alle Erkenntnisse zusammen, dann gleicht es wirklich einem Münzwurf, ob die veröffentlichten Resultate replizierbar sind oder nicht“, berichtet Felix Holzmeister.
Die Gründe dafür sind vielfältig. „Es besteht einerseits die Grundproblematik, dass Forschungsergebnisse auf statistischen Modellen und Schätzungen basieren und nie ganz wasserdicht sind – damit besteht immer eine Restwahrscheinlichkeit, dass etwas nicht reproduzierbar ist“, so Felix Holzmeister. Doch auch die Freiheitsgrade von Wissenschaftlern beim Design von wissenschaftlichen Untersuchungen und die Art der Datenauswertung beeinflussen die Reproduzierbarkeit. Außerdem bewegt die Anreizstruktur – verbunden mit dem Streben, in möglichst renommierten Journals zu publizieren – dazu, dass die Methodik zugunsten eines positiven Forschungsresultats gewählt wird. „Signifikante Ergebnisse lassen sich einfach leichter publizieren all Nullresultate“, so Holzmeister.
Vertrauensbruch?
Soll wir wissenschaftlichen Ergebnissen nun schlichtweg nicht mehr vertrauen? Ganz so einfach ist es nicht. „Der wissenschaftliche Erkenntnisgewinn und Fortschritt steht und fällt mit dem wissenschaftlichen Diskurs: Wären sich immer alle Forscher einig und würden dokumentierte Effekte nicht in Frage gestellt, ginge ein zentraler Bestandteil der Wissenschaft verloren“, so Holzmeister. Dennoch zeigen Replikationsstudien auf, dass ein gewisses Maß an kritischer Betrachtung an den Tag gelegt werden sollte – vor allem, wenn es sich um Einzelergebnisse handelt. „Um die Frage nach der Vertrauenswürdigkeit von wissenschaftlichen Erkenntnissen zu beantworten: Es sollte mehr Augenmerk auf das große Ganze gerichtet werden. Einzelergebnisse sollten tendenziell nicht überbewertet werden“. Anders gesagt: Unterschiedliche Forschungsrichtungen, die sich verwandten Fragestellungen widmen, zeichnen gemeinsam ein deutlich klareres Bild.
Verbesserungsbedarf
Ein Weg, um wissenschaftliche Ergebnisse verlässlicher zu machen, ist die sogenannte„crowd-science“. Das bedeutet: Nicht Einzelpersonen oder kleine Teams, sondern internationale Forschungsgruppen bündeln ihre Ressourcen für Projekte. Außerdem plädiert Holzmeister dafür, dass wissenschaftliche Forschungsergebnisse allgemein häufiger repliziert werden sollten: „Ein Konstrukt in der Wissenschaftstheorie ist der Gedanke von „self-correcting science“. Das heißt, wenn es ein falsches Ergebnis in die Literatur schafft, dann sollte die Wissenschaft als Gesamtes in der Lage sein, es durch Widerlegung in Frage zu stellen und die Forschung damit wieder in die „richtige Richtung“ zu lenken.“ Dafür brauchte es aber Anreize: „Replikationsstudien wurden bis vor kurzer Zeit in der wissenschaftlichen Praxis nicht wirklich honoriert und waren entsprechend schwierig zu publizieren.“ Wenn die Reproduktion zeigt, dass die Resultate der Überprüfung standhalten, so ist das zwar für die Wissenschaft und Gesellschaft ein wichtiger Beitrag, Wissenschaftler bereichern dabei ihre persönliche Karriere aber nur wenig. Um dem entgegenzuwirken, gibt es mittlerweile schon einige Fachzeitschriften, die auch Replikationen zu publizieren.
[…] liegt auf der Replizierbarkeit von Studien. Darüber hat „Makademia“ bereits in einem anderen Artikel im Gespräch mit Felix Holzmeister […]