Untersuchungen beweisen – oft genug gar nichts

Berichte über wissenschaftliche Untersuchungen, die überraschende Ergebnisse erbringen (oder widerlegen), nimmt man gerne und mit Interesse zur Kenntnis. Für Leser (vor allem für Laien, leider auch für manche Fachleute) ist dabei kaum erkennbar, ob das Untersuchungsergebnis auch richtig ist. Richtig meint damit, ob das Untersuchungsergebnis durch andere Studien wiederholt (repliziert) werden kann und ob die Schlussfolgerungen korrekt sind.
Wenn man auf bestimmte Kriterien achtet, kann man die Aussagekraft und Belastbarkeit einer Untersuchung besser abschätzen.

Das hilft allerdings nur bedingt. Mehr als die Hälfte aller Ergebnisse wissenschaftlicher Untersuchungen sind schlicht falsch.(1)

Die Kenntnis einiger grundlegender statistischer Maßgaben hilft, die Signifikanz einer Studie zu beurteilen. Zumindest aber hilft sie, sich ein realistisches Bild davon zu machen, dass eine einzelne Untersuchung genauso wenig einen Sommer macht wie eine Schwalbe und allenfalls ein Anlass dafür sein sollte, durch andere Untersuchungen von anderen Autoren überprüft und hinterfragt zu werden.
Erst wenn mehrere Autoren in unterschiedlichen Untersuchungen zu vergleichbaren Ergebnissen gekommen sind (Replikation der Ergebnisse), besteht eine leidliche Sicherheit, dass eine Feststellung richtig ist.

1. Zu kleiner oder zu großer Stichprobenumfang (n)

1.1. Zu kleiner Stichprobenumfang

Das Problem vieler Untersuchungen ist ein zu geringer Stichprobenumfang (n).
Untersuchungen mit 10, 15 oder 20 Probanden sind häufig.

Der Wirtschaftsnobelpreisträger Daniel Kahneman(2) weist darauf hin, dass Untersuchungen mit zu kleinen Stichproben keinerlei Aussage über die untersuchte These treffen können.

Ist der Stichprobenumfang (n) zu klein, ist der Einfluss des Zufalls größer als derjenige der Auswertungsergebnisse. Das Ergebnis einer Studie mit einem zu geringen Stichprobenumfang führt dazu, dass das Ergebnis der Untersuchung nichts mehr darüber aussagt, ob die untersuchte Hypothese wahr oder falsch ist – das Ergebnis ist nicht mehr als ein Zufallsergebnis.

Tatsache ist, dass die meisten Wissenschaftler (einschließlich Kahneman bis dahin selbst, wie er feststellte) bei intuitiver Bestimmung des erforderlichen Stichprobenumfangs (n) eine deutlich zu kleine Stichprobe festsetzt.

Andererseits ist eine kleine Stichprobe (z.B. 20) nicht immer schädlich, sondern kann durchaus sinnvoll sein. Voraussetzung ist, dass die Gruppen ausreichend gematched und bestimmte Bias kontrolliert werden. Die gefundenen Resulate bedürfen allerdings immer der Replikation (siehe hierzu auch das folgende Kapitel „2. Subjektive Datenauswertungskriterien“).

Zu große Stichproben haben ebenfalls Nachteile. Sie können sehr kleine, an sich bedeutungslose Unterschiede signifikant erscheinen lassen. Wenn das Ergebnis dann lediglich in Bezug auf die Signifikanz ausgewertet wird, ohne die Stärke der festgestellten Faktoren zu bewerten, kann dies ebenso in die Irre führen wie ein zu kleiner Stichprobenumfang.

Wichtig ist daher, dass die optimale Stichprobengröße ermittelt wird (z.B. mittels G-POWER).

Schätzen Sie selbst:

Wieviele Würfelwürfe sind erforderlich, um bei einem Würfel (6 Möglichkeiten) mit 95 % Sicherheit zu sagen, dass auch nur eine einzige 6 bei den Würfen dabei ist ?

Lösung
Hierfür bedarf es einer Stichprobe von n = 17 Würfen.

Ein anderes Beispiel:

Wie groß muss der Stichprobenumfang n sein, um bei einer Wahlumfrage die Zustimmung für eine Partei auf 1 % genau vorherzusagen ?

Lösung
Hierfür bedarf es einer Stichprobenumfangs von n = 2167 Wählern.(3)

Ein drittes Beispiel:

Münzwürfe kennen nur Kopf oder Zahl. Wie viele Münzwürfe sind nötig, um mit einer (bei den meisten wissenschaftlichen Untersuchungen angestrebten) Sicherheit von 95 % sagen zu können, dass die Verteilung zwischen Wappen und Zahl bei Würfen maximal bei 49:51 liegt (was ja wesentlich weniger genau ist ist als eine exakte 50:50 – Verteilung) ?

Lösung
Hierfür bedarf es einer Stichprobe von n = 9604 Münzwürfen. Und das, obwohl es nur 2 Möglichkeiten gibt: Wappen und Zahl.(4)

Eine Untersuchung mit 20 oder 30 Probanden hat daher nur eine sehr begrenzte Aussagekraft und muss daher mit erheblicher Vorsicht betrachtet werden.

Faustformel: Eine einzige Untersuchung im psychologischen oder medizinischen Bereich mit weniger als 50 Probanden (n = 50) sollte man erst dann zur Kenntnis nehmen, wenn weitere Untersuchungen die Ergebnisse bestätigen (siehe Kapitel 2).

Studien können sehr leicht durch Zufallsergebnisse manipuliert werden.(5)

Für dieses Thema würden wir uns über eine fachliche Ergänzung durch versierte Statistiker freuen, die erläutern könnten, welche Stichproben bei typischen Untersuchungen in psychologischen / neuro(physio)logischen Fragestellungen (wie denen zu AD(H)S) erforderlich sind, um eine angemessen zuverlässige Aussage zu erhalten.

1.2. Zu großer Stichprobenumfang

Ein zu großer Stichprobenumfang beinhaltet die Gefahr, dass signifikante Ergebnisse gefunden werden, deren absolute Bedeutung indes verschwindend gering ist. Wird die gefundene Signifikanz dann nicht ins Verhältnis zur Relevanz gestellt, wird bei Lesern, die die Ergebnisse nicht detailliert analysieren, ein Irrtum über eine bestehende Relevanz verursacht, der am Ende zu einer erheblichen Fehlinformation führt.

2. Subjektive Datenauswertungskriterien

Weitere Verzerrungen von Untersuchungsergebnissen folgen aus der subjektiven Auswahl von Datenauswertungskriterien. Silberzahl und Uhlmann(6) liessen 29 Wissenschaftlergruppen einen identischen grossen Datensatz (n > 2000) untersuchen. Erwartungsgemäß (der gaußschen Wahrscheinlichkeitskurve entsprechend) stimmten die Ergebnisse der meisten Gruppen im Wesentlichen überein und Ergebnisse einzelner Gruppen wichen erheblich ab.
Wichtiger war jedoch die Erkenntnis, welche Faktoren zu diesen Ergebnisabweichungen führten: es war zum einen die Wahl der mathematischen Statistikmodelle, die verwendet wurden (Clusteranalyse, logische Regression oder lineare Modelle) und zum anderen vornehmlich die gewählten Entscheidungen hinsichtlich der Auswertungstechnik der Datensätze. Entscheidungen also, die ein Leser eines Untersuchungsergebnisses gar nicht wahrnehmen kann. Es geht dabei nicht um eine vorsätzliche Verzerrung der Ergebnisse durch die Wissenschaftler, aber um massive Einflüsse auf die Ergebnisse, die nicht aus der Sachfrage selbst stammen.

Silberzahn und Uhlmann(6) ziehen daraus den Schluss, dass eine einzelne Untersuchung selbst bei hoher Stichprobengröße (n, siehe oben) keine verlässliche Aussage darüber zulässt, ob das Untersuchungsergebnis richtig ist.

Erst die Zusammenfassung mehrerer Untersuchungen zum selben Thema mit gleichen oder unterschiedlichen Datensätzen gibt Sicherheit hinsichtlich der Richtigkeit der Ergebnisse.

Folgerung: Eine Untersuchung mit einer nicht zu kleinen Probandenzahl durch eine renommierte Forschergruppe mit sauberster Datentransparenz ist ein guter Hinweis. Bevor man dem Ergebnis vertraut, sollte man jedoch abwarten, ob die Beobachtung durch weitere Untersuchungen bestätigt wird (Replikation).

3. Fehler in der Datenauswertung

3.1. Fehlerhafte Anwendung von Statistikmethoden

2016 wurde festgestellt, dass die drei gängigsten Auswerteprogramme für fMRT-Aufnahmen durch fehlerhaften Einsatz um bis zu 13 mal überhöhte falsch-positive Ergebnisse lieferten (bis zu 70 % anstatt richtig bis zu 5 %).(7)

Dies stellt die Ergebnisse von rund 40 000 Untersuchungen in Frage bei denen fRMT zum Einsatz kam.(7) Betroffen sind vornehmlich neuere Untersuchungen über Emotionen und Denkvorgänge, bei denen Daten mehrerer Probanden zusammengefasst werden.(8)

Bei korrektem Einsatz der statistischen Tools treten diese Fehler nicht auf. Viele Wissenschaftler arbeiten hier jedoch nicht sorgfältig genug.(8)
Ein anderes Analyseverfahren für fMRT Daten, das zwar wesentlich rechenintensiver ist, würde die möglichen Fehler jedoch vermeiden.(7)

3.2. Excelfehler

Wissenschaftler berichten von Datenverfälschungen durch eine fehlerhafte Anwendung von Excel. Bis zu 20 % der Exceldateien zu genetischen Daten seien durch Excelfehler verfälscht.(9)

3.2. Messfehler

Ein anderer Fehler bei fMRT-Auswertungen ergab sich dadurch, dass in vielen tausend Studien Rückschlüsse auf die Aktivität der Amygdala analysiert wurden – während die Messungen in Wirklichkeit nichts über die Amygdala, sondern über den Blutfluss in einer in der Nähe liegenden Vene aussagten.(10)(11)

4. Die Falsch-Positiv-Falle

Ein guter Test hat eine hohe Sensitivität und eine hohe Spezifität.

Sensitivität ist Güte der richtig-positiven Prognose: wieviele gegebene Testziele (Infektionen, Krebsfälle, AD(H)S-Bestand) werden tatsächlich erkannt ?

Spezifität ist die Güte der richtig-negativen Prognose. Wieviele nicht vorhandene Testziele als nicht vorhanden erkannt ?

Hat ein Testverfahren eine Sensitivität und eine Spezifität von je 95 Prozent (z.B. übliche Scharlachschnelltests) und liegt die Basisrate (die tatsächliche Quote Betroffener oder Infizierter) bei 0,5 % bedeutet das: Von 20000 Testpersonen werden 95 von 100 Betroffenen richtig erkannt – 5 jedoch nicht. Zugleich werden 995 nicht betroffene fälschlich als positiv diagnostiziert.(12)

Ähnliche Ergebnisse ergeben sich bei Brustkrebsdiagnosen, weshalb Mammografiescreenings unter erheblicher Kritik stehen, da die Zahl der Frauen, die sich aufgrund eines falsch positiven Befundes unnötigerweise ihre Brüste entfernen lassen um ein vielfaches höher liegt als die Anzahl der Frauen, bei denen dies aufgrund eines richtig positiven Befunds erfolgt.

Selbst die meisten Frauenärzte, die Brustkrebsdiagnosen stellen, erliegen in der Bewertung aus diesem Grunde Fehleinschätzungen.

5. Das p-Wert-Missverständnis

Der p-Wert (von probability, Wahrscheinlichkeit) gibt an, ob ein gemessenes Resultat auch durch Zufall erklärt werden kann. Über die eigentlich interessante Frage „Ist die Hypothese korrekt“ sagt der p-Wert dagegen nichts aus.(13)(14)

Es ist also falsch, dass ein niedriger p-Wert von unter 5 %, also unter 0,05, etwas über die Sicherheit aussagte, mit der die Hypothese richtig wäre. Er besagt lediglich, mit welcher Wahrscheinlichkeit das Untersuchungsergebnis erzielt werden würde, wenn in Wirklichkeit nicht die Untersuchungshypothese, sondern deren Gegenteil, die sogenannte Nullhypothese, zutrifft.(15) Das ist aber nun einmal keine Aussage über die Richtigkeit der Hypothese.

Der p-Wert sagt nichts darüber aus,

  • wie richtig oder zuverlässig ein wissenschaftliches Untersuchungsergebnis ist
    oder
  • wie zuverlässig ein Ergebnis wiederholt werden kann

Hinzu tritt, dass in bestimmten Konstellationen an sich recht eindeutige Untersuchungsergebnisse einen miserablen p-Wert erhalten, was zu absurden Interpretationen führt, die bis zum Gegenteil der Untersuchungsergebnisse reichen.(15)

Viele Wissenschaftler plädieren für die Abschaffung des p-Wertes, andere wollen die Schwelle, ab der ein Untersuchungsergebnis als signifikant gilt (derzeit 0,05, also 95%) deutlich erhöhen.

Am sinnvollsten dürfte sein, darauf zu achten, dass ein Ergebnis nicht nur von einer, sondern von möglichst vielen Untersuchungen mit jeweils hoher n-Anzahl und solidem p-Wert bestätigt wurde. Eine einzelne Untersuchung ist selbst bei optimalem p-Wert kein Beweis für die untersuchte These.

6. Datenerhebung, bis das Ergebnis passt

In einer Umfrage unter 2000 Wissenschaftlern gab mehr als die Hälfte zu, bei wissenschaftlichen Untersuchungen zunächst die Signifikanz der Ergebnisse zu prüfen, und danach zu entscheiden, ob weitere Daten erhoben werden. Die Datenerhebung erfolgt dann so lange, bis sich ein positives Ergebnis abzeichnete. 40 % der Umfrageteilnehmer hatten auf diese Weise selektive Studien produziert und veröffentlicht. Die meisten hielten dies darüber hinaus für richtig.(16)(17)

Um den Unsinn dieses Vorgehens zu verdeutlichen:
Immer wieder glauben Menschen, beim Roulette schlicht dadurch gewinnen zu können, dass sie beim setzen auf rot oder schwarz immer wieder den Einsatz verdoppeln.
Dass dies beim Roulette nicht funktioniert wird für den gesunden Menschenverstand bereits dadurch bewiesen, dass es heute noch Spielbanken gibt. Wenn dieses System funktionieren würde, wären längst alle Spielbanken pleite.
Mathematisch betrachtet funktioniert dieses nicht, weil es beim Roulette die Null gibt, die Bank. Diese kleine Wahrscheinlichkeit von 1 zu 37 genügt, um die Wahrscheinlichkeit, eine Reihe von Verdoppelungen spielen zu können, bis die eigene Farbe fällt, geringer zu machen als die Wahrscheinlichkeit, dass die Bank gewinnt.(18)
Gäbe es beim Roulette keine Bank, wäre das Verdoppelungsspiel auf rot und schwarz eine sichere Art zu gewinnen (und alle Spielbanken wären pleite).

Da es bei der Wissenschaft keine Bank gibt, ist die weitere Erhebung von Daten, so lange, bis irgendwann mal ein Datensatz zufälligerweise so konstruiert ist, dass er die Hypothese bestätigt, lediglich eine Frage von Fleiß und Ausdauer und keine Frage der Richtigkeit der aufgestellten Hypothese.

7. Torture your data untill they confess

Eine weitere Methode, die die Belastbarkeit von Ergebnissen beeinträchtigt, ist, wenn entgegen sauberer wissenschaftlicher Methodik nicht zuerst eine These definiert wird, zu der im zweiten Schritt Daten erhoben werden, die im dritten Schritt ausgewertet werden, um dann zu veröffentlichen ob die These sich bestätigt oder nicht, sondern wenn die erhobenen Daten so lange analysiert werden, bis nachfolgend eine These gefunden wird, die zu den gefundenen Daten passen könnte.

Der Kritik an diesem Vorgehen könnte zwar entgegengehalten werden, dass es reiner Zufall sei, mit welcher These ein Wissenschaftler schwanger ist, bevor er die Daten erhebt. Man stelle sich als Gedankenexperiment eine große Anzahl von Forscherteams vor, die alle die selbe Datenerhebung machen und die – je nach Forscherteam – von anderen Thesen ausgehen. Die einen finden ihre These bestätigt, die anderen finden sie widerlegt. Ändert dies etwas am Wahrheitsgehalt, wenn das Team, das die richtige These hatte, am Ende das Ergebnis präsentiert ?
Die Antwort der Statistiker ist; ja, es ändert etwas. Denn eine These ist keine beliebig austauschbar Anschauung.
In unserem Gedankenexperiment würden viele Thesen als widerlegt gelten, wenn alle Forscherteams ihre Thesen vorher formuliert hätten. Dass das eine Forscherteam darunter ist, das die richtige These hatte, fällt dann anders ins Gewicht.

Unabhängig davon zeigt dieses Gedankenexperiment die Wichtigkeit von Replikationsstudien. Forschungsergebnisse sollten erst dann Aufmerksamkeit erhalten, wenn sie repliziert wurden. Neue und unerwartete Ergebnisse mögen unterhaltsamer sein – in Bezug auf die Realität sind sie allerdings in etwa so hilfreich wie die Beiträge mancher „Zeitungen“, die täglich aufgrund ihrer Überraschung und Unerwartetheit gelesen werden. Mensch beisst Hund erregt mehr Aufmerksamkeit, Hund beisst Mensch ist der Realität näher.
Nichts dagegen, damit Geld zu verdienen, sei es als Journalist oder als Forscher. Man sollte nur klar stellen, was man verkauft. Unterhaltung als Realitätsberichte zu bezeichnen ist eine Täuschung, die zu durchschauen nicht alle Leser in der Lage sind.

Die Wissenschaft wäre gut beraten, Unterhaltung und Realitätserkenntnis sauberer zu trennen.
Das Ausblenden von noch nicht replizierten Ergebnissen würde helfen, viele Irrtümer zu vermeiden.

Zuletzt aktualisiert am 12.10.2019 um 00:38 Uhr


2.)
Kahneman, Daniel, Schnelles Denken, langsames Denken, 2011, Siedler, Seite 139, 142 ff, ein äußerst lesenswertes Buch - (Position im Text: 1)

1 Gedanke zu “Untersuchungen beweisen – oft genug gar nichts”

  1. Super Seite!
    Die Tatsache, dass hier auf die oben stehenden Probleme ausführlich eingegangen wird (was trotz Replikationskrise nicht mal an den Unis genügend stattfindet) spricht sehr für die Qualität der hier zu findenden Informationen.

Schreibe einen Kommentar