×

Wir hoffen, ADxS.org gefällt Dir und Du findest hilfreiche Informationen zu AD(H)S. Um die Erstellung und den Betrieb von ADxS.org finanzieren zu können, sind wir auf (derzeit noch steuerlich nicht absetzbare) Spenden angewiesen. Unsere Kosten betragen rund 10.000€ im Jahr – zusätzlich zu aller investierter Arbeit in die Erstellung von AdxS.org. Unsere Spenden betragen im Schnitt 25,83€. Wenn alle unserer derzeit monatlich rund 6.500 unterschiedlichen Leser lediglich den Gegenwert eines Mineralwassers spenden würden, hätten wir diesen Betrag innerhalb weniger Wochen erreicht. Leider spenden 99,99% aller Leser nicht.

Wir wollen weiterhin unabhängig von Werbung bleiben und ein kostenloses und freies Informationsportal zum Thema AD(H)S anbieten. Wenn Du ADxS hilfreich findest, wären wir Dir sehr dankbar, wenn auch Du uns unterstützen könntest.

Ich möchte via PayPal spenden
Mehr Infos über Spenden

Untersuchungen beweisen – oft genug gar nichts

Berichte über wissenschaftliche Untersuchungen, die überraschende Ergebnisse erbringen (oder widerlegen), nimmt man gerne und mit Interesse zur Kenntnis. Für Leser (vor allem für Laien, leider auch für manche Fachleute) ist dabei kaum erkennbar, ob das Untersuchungsergebnis auch richtig ist. Richtig meint damit, ob das Untersuchungsergebnis durch andere Studien wiederholt (repliziert) werden kann und ob die Schlussfolgerungen korrekt sind.
Wenn man auf bestimmte Kriterien achtet, kann man die Aussagekraft und Belastbarkeit einer Untersuchung besser abschätzen.

Das hilft allerdings nur bedingt. Mehr als die Hälfte aller Ergebnisse wissenschaftlicher Untersuchungen sind schlicht falsch.(1)

Die Kenntnis einiger grundlegender statistischer Maßgaben hilft, die Signifikanz einer Studie zu beurteilen. Zumindest aber hilft sie, sich ein realistisches Bild davon zu machen, dass eine einzelne Untersuchung genauso wenig einen Sommer macht wie eine Schwalbe und allenfalls ein Anlass dafür sein sollte, durch andere Untersuchungen von anderen Autoren überprüft und hinterfragt zu werden.
Erst wenn mehrere Autoren in unterschiedlichen Untersuchungen zu vergleichbaren Ergebnissen gekommen sind (Replikation der Ergebnisse), besteht eine leidliche Sicherheit, dass eine Feststellung richtig ist.

 

Eine saubere wissenschaftliche Methodik wäre

  • eine geplante Untersuchung zu registrieren
  • zuerst eine These zu definieren
  • zu der im zweiten Schritt Daten erhoben werden
  • die im dritten Schritt ausgewertet werden
  • um dann zu veröffentlichen ob die These sich bestätigt oder nicht.

Diese Methodik kann an vielen Stellen unterlaufen werden.

1. Thesen(um)formulierung nach der Datenerhebung

Zuweilen wird die These erst nach der Erhebung und Auswertung der Daten formuliert. Dies passiert besonders dann, wenn die ursprüngliche These sich nicht bewahrheitet hat.

Der Kritik an diesem Vorgehen könnte zwar entgegengehalten werden, dass es reiner Zufall sei, mit welcher These ein Wissenschaftler schwanger ist, bevor er die Daten erhebt. Man stelle sich als Gedankenexperiment eine große Anzahl von Forscherteams vor, die alle die selbe Datenerhebung machen und die – je nach Forscherteam – von zufällig generierten unterschiedlichen Thesen ausgehen. Die einen finden ihre These bestätigt, die anderen finden sie widerlegt. Ändert dies etwas am Wahrheitsgehalt, wenn das Team, das die richtige These hatte, am Ende das Ergebnis präsentiert ?
Die Antwort der Statistiker ist: ja, es ändert etwas. Denn eine These ist keine beliebig austauschbar Anschauung.
In unserem Gedankenexperiment würden viele Thesen als widerlegt gelten, wenn alle Forscherteams ihre Thesen vorher formuliert hätten. Dass das eine Forscherteam darunter ist, das die richtige These hatte, fällt dann anders ins Gewicht.

Unabhängig davon zeigt dieses Gedankenexperiment die Wichtigkeit von Replikationsstudien.

Forschungsergebnisse sollten erst dann als belastbar betrachtet werden, wenn sie mehrfach repliziert wurden. Neue und unerwartete Ergebnisse mögen unterhaltsamer sein – in Bezug auf die Realität sind sie allerdings in etwa so hilfreich wie die Beiträge mancher “Zeitungen”, die täglich aufgrund ihrer Überraschung und Unerwartetheit gelesen werden und nicht aufgrund ihres Sachinformationsgehaltes. Mensch beisst Hund erregt mehr Aufmerksamkeit als Hund beisst Mensch. Doch was ist der Realität näher?
Nichts dagegen, damit Geld zu verdienen, sei es als Journalist oder als Forscher. Man sollte nur klar stellen, was man verkauft. Unterhaltung als Realitätsberichte zu bezeichnen ist eine Täuschung, die zu durchschauen nicht alle Leser in der Lage sind.

Die Wissenschaft wäre gut beraten, Unterhaltung und Realitätserkenntnis sauberer zu trennen.
Das Ausblenden von noch nicht replizierten Ergebnissen würde helfen, viele Irrtümer zu vermeiden.

2. Fehler der Datenerhebung

2.1. Zu kleiner oder zu großer Stichprobenumfang (n)

2.1.1. Zu kleiner Stichprobenumfang

Das Problem vieler Untersuchungen ist ein zu geringer Stichprobenumfang (n).
Untersuchungen mit 10, 15 oder 20 Probanden sind häufig.

Der Wirtschaftsnobelpreisträger Daniel Kahneman(2) weist darauf hin, dass Untersuchungen mit zu kleinen Stichproben keinerlei Aussage über die untersuchte These treffen können.
Ist der Stichprobenumfang (n) zu klein, ist der Einfluss des Zufalls größer als derjenige der Datenlage. Das Ergebnis einer Studie mit einem zu geringen Stichprobenumfang führt dazu, dass das Ergebnis der Untersuchung nichts mehr darüber aussagt, ob die untersuchte Hypothese wahr oder falsch ist – das Ergebnis ist nicht mehr als ein Zufallsergebnis.

Tatsache ist, dass die meisten Wissenschaftler (einschließlich Kahneman eine Zeit lang selbst, wie er feststellte) bei intuitiver Bestimmung des erforderlichen Stichprobenumfangs (n) eine deutlich zu kleine Stichprobe festsetzt.

Andererseits ist eine kleine Stichprobe (z.B. 20) nicht immer schädlich, sondern kann durchaus sinnvoll sein. Voraussetzung ist, dass die Gruppen ausreichend gematched und bestimmte Bias kontrolliert werden. Die gefundenen Resulate bedürfen allerdings immer der Replikation.

Zu große Stichproben haben ebenfalls Nachteile. Sie können sehr kleine, an sich bedeutungslose Unterschiede signifikant erscheinen lassen. Wenn das Ergebnis dann lediglich in Bezug auf die Signifikanz ausgewertet wird, ohne die Stärke der festgestellten Faktoren zu bewerten, kann dies ebenso in die Irre führen wie ein zu kleiner Stichprobenumfang.

Wichtig ist daher, dass die optimale Stichprobengröße ermittelt wird (z.B. mittels G-POWER).

Schätzen Sie selbst:

Wieviele Würfelwürfe sind erforderlich, um bei einem Würfel (6 Möglichkeiten) mit 95 % Sicherheit zu sagen, dass auch nur eine einzige 6 bei den Würfen dabei ist ?

Lösung
Hierfür bedarf es einer Stichprobe von n = 17 Würfen.

Ein anderes Beispiel:

Wie groß muss der Stichprobenumfang n sein, um bei einer Wahlumfrage die Zustimmung für eine Partei auf 1 % genau vorherzusagen ?

Lösung
Hierfür bedarf es einer Stichprobenumfangs von n = 2167 Wählern.(3)

Ein drittes Beispiel:

Münzwürfe kennen nur Kopf oder Zahl. Wie viele Münzwürfe sind nötig, um mit einer (bei den meisten wissenschaftlichen Untersuchungen angestrebten) Sicherheit von 95 % sagen zu können, dass die Verteilung zwischen Wappen und Zahl bei Würfen maximal bei 49:51 liegt (was ja wesentlich weniger genau ist ist als eine exakte 50:50 – Verteilung) ?

Lösung
Hierfür bedarf es einer Stichprobe von n = 9604 Münzwürfen. Und das, obwohl es nur 2 Möglichkeiten gibt: Wappen und Zahl.(4)

Eine Untersuchung mit 20 oder 30 Probanden hat daher nur eine sehr begrenzte Aussagekraft und muss daher mit erheblicher Vorsicht betrachtet werden.

Faustformel: Eine einzige Untersuchung im psychologischen oder medizinischen Bereich mit weniger als 50 Probanden (n = 50) sollte man erst dann zur Kenntnis nehmen, wenn weitere Untersuchungen die Ergebnisse bestätigen.

Studien können sehr leicht durch Zufallsergebnisse manipuliert werden.(5)

Für dieses Thema würden wir uns über eine fachliche Ergänzung durch versierte Statistiker freuen, die erläutern könnten, welche Stichproben bei typischen Untersuchungen in psychologischen / neuro(physio)logischen Fragestellungen (wie denen zu AD(H)S) erforderlich sind, um eine angemessen zuverlässige Aussage zu erhalten.

2.1.2. Zu großer Stichprobenumfang

Ein zu großer Stichprobenumfang beinhaltet die Gefahr, dass (statistisch) signifikante Ergebnisse gefunden werden, deren Wirkung / Effektstärke / Bedeutung indes verschwindend gering ist. Wird die gefundene Signifikanz dann nicht ins Verhältnis zur Relevanz gestellt, wird bei Lesern, die die Ergebnisse nicht detailliert analysieren, ein Irrtum über eine bestehende Relevanz verursacht, der am Ende zu einer erheblichen Fehlinformation führt.

Beispiel zur Signifikanz versus Relevanz

Zwei Autohersteller bieten ihre Fahrzeuge in 3 Farben an: weiss, schwarz, rot. Gekauft werden die Autos

von Hersteller A zu 41 % Schwarz, zu 40 % Weiss, zu 19 % Rot,
von Hersteller B zu 41 % Schwarz, zu 31 % Weiss, zu 28 % Rot.

Untersuchungen bei beiden Herstellern werden feststellen, dass Schwarz die Lieblingsfarbe der Kunden ist. Bei Hersteller A muss die Stichprobe zwar größer sein, bis sie statistisch signifikant ist (dass sicher ist, dass das Ergebnis mit mindestens 95 % Wahrscheinlichkeit kein Zufall ist).

Dennoch sagt das Ergebnis, dass die Käufer Schwarz signifikant bevorzugen bei A kaum etwas aus, bei B dagegen sehr wohl.

2.2. Datenerhebung, bis das Ergebnis passt

In einer Umfrage unter 2000 Wissenschaftlern gab mehr als die Hälfte zu, bei eigenen wissenschaftlichen Untersuchungen zunächst die Signifikanz der Ergebnisse zu prüfen und danach zu entscheiden, ob weitere Daten erhoben werden. Die Datenerhebung erfolgt dann so lange, bis sich ein positives Ergebnis abzeichnete. 40 % der Umfrageteilnehmer hatten auf diese Weise selektive Studien produziert und veröffentlicht. Die meisten hielten dies darüber hinaus für richtig.(6)(7)

Um den Denkfehler in diesem Vorgehens zu verdeutlichen:
Immer wieder glauben Menschen, beim Roulette schlicht dadurch gewinnen zu können, dass sie beim setzen auf rot oder schwarz immer wieder den Einsatz verdoppeln.
Dass dies beim Roulette nicht funktioniert wird für den gesunden Menschenverstand bereits dadurch bewiesen, dass es heute noch Spielbanken gibt. Wenn dieses System funktionieren würde, wären längst alle Spielbanken pleite.
Mathematisch betrachtet funktioniert dieses nicht, weil es beim Roulette die Null gibt, die Bank. Diese kleine Wahrscheinlichkeit von 1 zu 37 genügt, um die Wahrscheinlichkeit, eine Reihe von Verdoppelungen spielen zu können, bis die eigene Farbe fällt, geringer zu machen als die Wahrscheinlichkeit, dass die Bank gewinnt.(8)
Gäbe es beim Roulette keine Bank, wäre das Verdoppelungsspiel auf rot und schwarz eine sichere Art zu gewinnen (und alle Spielbanken wären pleite).

Da es bei der Wissenschaft keine Bank gibt, ist die weitere Erhebung von Daten, so lange, bis irgendwann mal ein Datensatz zufälligerweise so konstruiert ist, dass er die Hypothese bestätigt, lediglich eine Frage von Fleiß und Ausdauer und keine Frage der Richtigkeit der aufgestellten Hypothese.

3. Fehler der Datenauswertung

3.1. Thesenförderlich ausgewählte Datenauswertungskriterien

Weitere Verzerrungen von Untersuchungsergebnissen folgen aus der subjektiven Auswahl von Datenauswertungskriterien. Silberzahl und Uhlmann(9) ließen 29 Wissenschaftlergruppen einen identischen grossen Datensatz (n > 2000) untersuchen. Erwartungsgemäß (der Gaußschen Verteilungskurve entsprechend) stimmten die Ergebnisse der meisten Gruppen im Wesentlichen überein und Ergebnisse einzelner Gruppen wichen erheblich ab.
Wichtiger war jedoch die Erkenntnis, welche Faktoren zu diesen Ergebnisabweichungen führten: es war zum einen die Wahl der mathematischen Statistikmodelle, die verwendet wurden (Clusteranalyse, logische Regression oder lineare Modelle) und zum anderen vornehmlich die gewählten Entscheidungen hinsichtlich der Auswertungstechnik der Datensätze. Entscheidungen also, die ein Leser eines Untersuchungsergebnisses gar nicht wahrnehmen kann. Es geht dabei nicht um eine vorsätzliche Verzerrung der Ergebnisse durch die Wissenschaftler, aber um massive Einflüsse auf die Ergebnisse, die nicht aus der Sachfrage selbst stammen.

Silberzahn und Uhlmann(9) ziehen daraus den Schluss, dass eine einzelne Untersuchung selbst bei hoher Stichprobengröße (n, siehe oben) keine verlässliche Aussage darüber zulässt, ob das Untersuchungsergebnis richtig ist.

Erst die Zusammenfassung mehrerer Untersuchungen zum selben Thema mit gleichen oder unterschiedlichen Datensätzen gibt Sicherheit hinsichtlich der Richtigkeit der Ergebnisse.

Folgerung: Eine Untersuchung mit einer nicht zu kleinen Probandenzahl durch eine renommierte Forschergruppe mit sauberster Datentransparenz ist ein guter Hinweis. Bevor man dem Ergebnis vertraut, sollte man jedoch abwarten, ob die Beobachtung durch weitere Untersuchungen bestätigt wird (Replikation).

Doch selbst eine hohe Untersuchungsanzahl schützt in bestimmten Bereichen nicht vor Datenverzerrung. Grawe(10) beschreibt sehr plastisch, wie die Untersuchungen zur Behandlung von Depressionen durch wirtschaftliche oder andere Interessen verzerrt werden.

Pharmahersteller finanzierten 28 der 29 von Grawe analysierten Untersuchungen zu Medikamenten bei Depression, alle der weiter untersuchten 48 Studien zu psychologischen Behandlungsmethoden wurden von öffentlichen Stellen finanziert. Keine der pharmakologischen Studien hatte eine Katamnese (Langzeiterfolgsprüfung), dagegen 30 der 48 Studien zu psychologischer Behandlung.

Depression zeigt sehr häufig innerhalb von 10 Wochen eine Spontanremission (die Symptome verschwinden ohne Einflussnahme).

Die pharmakologischen Studien verwendeten vorrangig die HAMD, MADRS und CGI zur Erfolgsmessung, die alle auf fremdbewertbare Symptome abstellen. Das sind diejenigen Symptome, die bei einer Spontanremission besonders gut weg gehen.
Die Kontrollgruppen der pharmakologischen Tests zeigten im Schnitt eine Effektstärke von 1,82 nach dem MADRS, während die Medikamente eine Effektstärke von 1,88 zeigten. Das bedeutet, dass die Symptomverbesserung durch die Medikamente nach dem MADRS nur um eine Effektstärke von 0,06 besser war als die spontane Symptomverbesserung bei den Kontrollpersonen, die keine Behandlung bekamen.

Die Untersuchungen der psychologischen Behandlungsmethoden verwendeten vornehmlich das BDI und selbstbezogene Maße, die bei Spontanremission eine deutlich schwächere Effektstärke zeigen. Die (nicht behandelten) Kontrollgruppen der psychologischen Behandlungsmethoden zeigten hier eine Effektstärke von 0,97. Kognitive Therapie hatte mit 1,33 eine um 0,36 höhere Nettoeffektstärke als die Kontrollgruppe, kognitive Verhaltenstherapie mit 1,54 eine Nettoeffektstärke von 0,57, Interpersonale Therapie netto 0,50, gegenwartsorientierte psychodynamische Kurztherapien netto 0,79 und Paartherapien netto 0,96.

Und dennoch sind laut Grawe auch von den psychologisch behandelten Patienten nur 13 bis 14 % dauerhaft von ihrer Depression befreit. 25 % lehnen eine störungsorientierte Behandlung grundsätzlich ab, weitere 13% bis 25 % brechen die laufende Therapie ab. Von den verbleibenden 64 % erreicht die Hälfte eine klinisch signifikante Verbesserung. Von den 32 %, die kurzfristig erfolgreich behandelt wurden, erleiden knapp zwei Drittel binnen 2 Jahren einen Rückfall.(10)

Nun muss man der Pharmaindustrie erstens zu Gute halten, dass Grawe eher ein Vertreter der psychotherapeutischen Linie sen dürfte und zweitens, dass Antidepressiva durchaus auch hilfreich wirken – wenn auch bei weitem nicht so stark, wie die Studien hierzu vermitteln wollen.
Dennoch zeigt die Darstellung, wie durch die Auswahl geeigneter Messinstrumente die Datenauswertung sehr in die gewünschte Richtung manipuliert werden kann. Und auch dies betrifft nicht alleine die Pharmaindustrie. Auch die Untersuchungen zu psychologischen Behandlungmethoden haben die für sie günstigeren Bewertungsmaßstäbe verwendet.

Die medikamentöse Behandlung von Depression ist unseres Erachtens stark von derjenigen bei AD(H)S zu unterscheiden, da AD(H)S  eine lebenslängliche Störung ist und die Effektstärke der AD(H)S-Medikamente von vorneherein nur für den Zeitraum der Einnahme bestimmt werden können.

3.2. Datenanalyse, bis das Ergebnis passt (Torture your data untill they confess)

Eine weitere Methode, die die Belastbarkeit von Ergebnissen beeinträchtigt, ist, wenn entgegen sauberer wissenschaftlicher Methodik die erhobenen Daten so lange (mit unterschiedlichen Methoden) analysiert werden, bis sie unter irgend einem Aspekt die These bestätigen.

Die Methode der Datenauswertung wird in aller Regel nicht bereits mit der Definition der These festgelegt. Dieser Spielraum wird zuweilen unangemessen ausgenutzt.
In der Veröffentlichung selbst werden die zuvor versuchten und verworfenen Datenauswertungsmethoden regelmäßig nicht beschrieben.

3.3. Fehlerhafte Anwendung von Statistikmethoden

2016 wurde festgestellt, dass die drei gängigsten Auswertungsprogramme für fMRT-Aufnahmen durch fehlerhaften Einsatz um bis zu 13 mal überhöhte falsch-positive Ergebnisse lieferten (bis zu 70 % anstatt richtig bis zu 5 %).(11) Dies stellt die Ergebnisse von rund 40 000 Untersuchungen in Frage, bei denen fRMT zum Einsatz kam.
Betroffen sind vornehmlich neuere Untersuchungen über Emotionen und Denkvorgänge, bei denen Daten mehrerer Probanden zusammengefasst werden.(12) Bei korrektem Einsatz der statistischen Tools treten diese Fehler nicht auf. Viele Wissenschaftler arbeiten hier jedoch nicht sorgfältig genug.

Ein anderes Analyseverfahren für fMRT Daten, das zwar wesentlich rechenintensiver ist, würde die möglichen Fehler vermeiden.(11)

3.4. Messfehler

Ein anderer Fehler bei fMRT-Auswertungen ergab sich dadurch, dass in vielen tausend Studien Rückschlüsse auf die Aktivität der Amygdala analysiert wurden – während die Messungen in Wirklichkeit nichts über die Amygdala, sondern über den Blutfluss in einer in der Nähe liegenden Vene aussagten.(13)(14)

3.5. Excelfehler

Wissenschaftler berichten von Datenverfälschungen durch eine fehlerhafte Anwendung von Excel. Bis zu 20 % der Exceldateien zu genetischen Daten seien durch Excelfehler verfälscht.(15)

Im Sommer 2020 wurde bekannt, dass etliche Gene umbenannt werden, weil diese häufig zu Auswertungsfehlern in Excel geführt haben, weil sie Datumsangaben in Excel entsprachen. Der Fehler würde nicht auftreten, wenn die Wissenschaftler die Namensfelder der Gene konsequent als Text formatieren würden (was sehr simpel zu bewerkstelligen wäre).
Dass so leicht zu behebende Fehler dennoch so häufig auftreten, dass eine Umbenennung von Genen erfolgt, ist ein starkes Indiz dafür, dass Excel häufig selbst in Bezug auf einfachste Handhabungen fehlerhaft genutzt wird.

4. Veröffentlichung nur genehmer Ergebnisse

Eine leider recht häufige Manipulationsmethode ist, eine größere Anzahl von Studien durchzuführen, von denen nur diejenigen veröffentlicht werden, die Ergebnisse zeigen, die dem Finanzier oder den Autoren genehm sind.

Da Studien eine gewisse Bandbreite an unterschiedlichen Ergebnissen zeigen können, ergibt sich auch bei einem sicheren Sachverhalt eine statistische Ergebnisstreuung, die in etwa einer Gaußschen Verteilungskurve entspricht. Die meisten Ergebnisse liegen in der Nähe des tatsächlichen Sachverhaltes. Je weiter die Ergebnisse davon abweichen, desto seltener werden sie auftreten.
Bildlich beschrieben entspricht dies ungefähr einem Sandhaufen, der durch Sandkörner entsteht, die an einer genauen Stelle von oben herabfallen. Der Sandhaufen zeigt an seinem höchsten Punkt an, wo die Sandkörner auf ihn herabfallen.
Doch schon etwas Wind kann das Ergebnis verfälschen. Böiger Wind erst recht. Und so gibt es viele Faktoren, die ein Ergebnis beeinflussen können.

Die Methode, nur genehme Ergebnisse zu veröffentlichen, erfordert hohe Ressourcen (Geld, Zeit). Nur Marktteilnehmer mit entsprechend hohen (idR wirtschaftlichen) Interessen leisten sich diese Methode.

Eine Registrierung einer Studie vor deren Durchführung hilft, solche Manipulationen zu verhindern.

5. Interpretationsfehler durch Leser

Eine weitere Fehlerquelle ergibt sich daraus, dass die Untersuchungsergebnisse von (auch fachkundigen) Lesern falsch interpretiert werden.

5.1. Die Falsch-Positiv-Falle

Ein guter Test hat eine hohe Sensitivität und eine hohe Spezifität.

Sensitivität ist Güte der richtig-positiven Prognose: wie viele gegebene Testziele (Infektionen, Krebsfälle, AD(H)S) werden tatsächlich erkannt ?

Spezifität ist die Güte der richtig-negativen Prognose. Wie viele nicht vorhandene Testziele werden als nicht vorhanden erkannt ?

Hat ein Testverfahren eine Sensitivität und eine Spezifität von je 95 Prozent (z.B. übliche Scharlachschnelltests) und liegt die Basisrate (die tatsächliche Quote Betroffener oder Infizierter) bei 0,5 % bedeutet das: Von 20000 Testpersonen werden von 100 tatsächlich Betroffenen (angenommene Basisrate von Scharlach) 95 richtig erkannt – 5 jedoch nicht. Zugleich werden 995 nicht Betroffene fälschlich als positiv diagnostiziert.(16)

Ähnliche Ergebnisse ergeben sich bei Brustkrebsdiagnosen, weshalb Mammografiescreenings unter erheblicher Kritik stehen, da die Zahl der Frauen, die sich aufgrund eines falsch positiven Befundes unnötigerweise ihre Brüste entfernen lassen um ein vielfaches höher liegt als die Anzahl der Frauen, bei denen dies aufgrund eines richtig positiven Befunds erfolgt.

Selbst viele Frauenärzte, die Brustkrebsdiagnosen stellen, erliegen (oder erlagen bis zu einer intensiven Aufklärung hierzu in den letzten Jahren) in der Bewertung aus diesem Grunde Fehleinschätzungen.

5.2. Das p-Wert-Missverständnis

Der p-Wert (von probability, Wahrscheinlichkeit) gibt an, ob ein gemessenes Resultat auch durch Zufall erklärt werden kann. Über die eigentlich interessante Frage “Ist die Hypothese korrekt” sagt der p-Wert dagegen nichts aus.(17)(18)

Es ist also falsch, dass ein niedriger p-Wert von unter 5 %, also unter 0,05, etwas über die Sicherheit aussagte, mit der die Hypothese richtig wäre. Er besagt lediglich, mit welcher Wahrscheinlichkeit das Untersuchungsergebnis erzielt werden würde, wenn in Wirklichkeit nicht die Untersuchungshypothese, sondern deren Gegenteil, die sogenannte Nullhypothese, zutrifft.(19) Das ist aber nun einmal keine Aussage über die Richtigkeit der Hypothese.

Der p-Wert sagt nichts darüber aus,

  • wie richtig oder zuverlässig ein wissenschaftliches Untersuchungsergebnis ist
    oder
  • wie zuverlässig ein Ergebnis wiederholt werden kann

Hinzu tritt, dass in bestimmten Konstellationen an sich recht eindeutige Untersuchungsergebnisse einen miserablen p-Wert erhalten, was zu absurden Interpretationen führt, die bis zum Gegenteil der Untersuchungsergebnisse reichen.(19)

Viele Wissenschaftler plädieren für die Abschaffung des p-Wertes, andere wollen die Schwelle, ab der ein Untersuchungsergebnis als signifikant gilt (derzeit 0,05, also 95%) deutlich erhöhen.

Am sinnvollsten dürfte sein, darauf zu achten, dass ein Ergebnis nicht nur von einer, sondern von möglichst vielen Untersuchungen mit jeweils hoher n-Anzahl und solidem p-Wert bestätigt wurde. Eine einzelne Untersuchung ist selbst bei optimalem p-Wert kein Beweis für die untersuchte These.

 

 

Zuletzt aktualisiert am 14.09.2020 um 03:16 Uhr


2.)
Kahneman, Daniel, Schnelles Denken, langsames Denken, 2011, Siedler, Seite 139, 142 ff, ein äußerst lesenswertes Buch - (Position im Text: 1)
10.)
Grawe (2004): Neuropsychotherapie, Seiten 216-230 - (Position im Text: 1, 2)

Ein Gedanke zu „Untersuchungen beweisen – oft genug gar nichts“

  1. Super Seite!
    Die Tatsache, dass hier auf die oben stehenden Probleme ausführlich eingegangen wird (was trotz Replikationskrise nicht mal an den Unis genügend stattfindet) spricht sehr für die Qualität der hier zu findenden Informationen.

    Antworten

Schreibe einen Kommentar