Mythos p-Wert

Für mich gibt es ein paar „Aufreger“ im Bereich der Statistik, die leider gleichzeitig totale Dauerbrenner sind. Die Top-Plätze meiner Hitliste sind: „Chi²“, „Nullhypothese“ und der „p-Wert“.

Während die Nutzung überholter Koeffizienten wie dem Chi² hauptsächlich unpraktisch ist, erscheint mir ein mangelndes Verständnis des p-Wertes sogar als gefährlich. Gerade deswegen, weil er im Bereich der Medizin so häufig falsch verwendet wird und meine Gesundheit davon abhängt, ob MedizinerInnen in ihren Studien wissen, was sie tun!


Kurz zusammengefasst: der p-Wert (oder die Signifikanz) sollte nie alleine angegeben werden, sondern immer zusammen mit einem Koeffizienten z.B. zum Zusammenhang in der Stichprobe.


Von vorne und ganz in Ruhe: wenn ein p-Wert verwendet werden soll, interessiert mich meist ein Zusammenhang zwischen zwei Variablen oder ein Unterschied zwischen Gruppen oder Testreihen. Also möchte ich beispielsweise wissen, ob PatientInnen mit blauer Pille zufriedener sind als PatientInnen ohne blaue Pille. Dafür habe ich in einer Stichprobe Daten erhoben, also z.B. 200 PatientInnen befragt oder 200 PassantInnen beobachtet oder 200 Tage lang das Wetter notiert. Wenn ich wissen möchte, ob es einen Unterschied zwischen PatientInnen mit und ohne blaue Pille gibt, rechne ich dann für diese Stichprobe beispielsweise einen Koeffizienten für die Varianz oder für die Korrelation aus. Dieser sagt mir, ob es in der Stichprobe (!) einen Unterschied zwischen den Gruppen gibt bzw. ob es einen Zusammenhang zwischen Pillen-Einnahme und Zufriedenheit gibt.

Im zweiten Schritt lasse ich jetzt die Signifikanz zu diesem Unterschied bzw. zum Zusammenhang ausgeben. Damit lasse ich ausrechnen, ob der Unterschied bzw. der Zusammenhang mehr als zufällig ist*. Als Ergebnis bekomme ich den Wert der Signifikanz, also den berühmten p-Wert. Wenn dieser Wert unter einer gewissen Schwelle (nämlich dem Signifikanzniveau Alpha) liegt, z.B. bei max. 0,01, bezeichnet man das Ergebnis als signifikant. Das bedeutet, dass der Unterschied bzw. der Zusammenhang mehr als zufällig ist.

Jetzt kommt die entscheidende Frage: Kann dann der Unterschied bzw. der Zusammenhang verallgemeinert werden? Kann ich aus meinen Daten in der Stichprobe auf die Grundgesamtheit (aka Allgemeinheit) schließen? Stur auf die Zahlen geschaut wäre die Antwort: Ja. Aber! Die wichtigste Größe bei der Berechnung der Signifikanz ist N, also die Anzahl der Untersuchungsobjekte, befragten Personen oder Versuchsläufe. Bei großen N wird die Signifikanz also immer super. Hilft das weiter? Nein. Die Signifikanz macht auch keinen Sinn, wenn von meinen 1000 Befragten 998 mit Ja und nur 2 mit Nein geantwortet haben. Die Signifikanz macht keinen Sinn, wenn meine Stichprobe nicht zur Grundgesamtheit passt, wenn ich meine blaue Pille nur 20-jährigen Studierenden zum Probieren gegeben habe, sie aber später von 60-jährigen mit schwacher Durchblutung angewendet werden soll. Diese ganzen Feinheiten kann ich nur (!) mit gesundem Menschenverstand (gepaart mit etwas Erfahrung im Umgang mit statistischen Untersuchungen) erkennen und einordnen.

Also brauche ich einen dritten Schritt, den eigentlich wichtigsten, und bei dem denke ich mal kurz darüber nach, ob das auch wirklich Sinn macht! Und ob die Koeffizienten und Tests, die ich benutzt habe, auch wirklich zu meinen Daten passen bzw. ob die Voraussetzungen zur Benutzung der Koeffizienten und Tests wirklich erfüllt waren. Hätte ich das nicht zuerst tun müssen? Ja! Aber im Eifer des Gefechts (also in Vorfreude auf ein spannendes Ergebnis) geht die Sorgfalt im Vorfeld eben manchmal abhanden – und dann muss sie eben nachgeholt werden.


Was bedeutet das in der Praxis, im statistischen Alltag? Was mache ich denn jetzt in meiner Abschlussarbeit? Ganz einfach: das Ergebnis für den Zusammenhang angeben und dazu das Ergebnis für den Signifikanz-Test notieren. Also: „TeilnehmerInnen, die häufig eine blaue Pille genommen haben, sind zufriedener als TeilnehmerInnen, die seltener eine blaue Pille genutzt haben (Spearman = 0,4; p = 0,002)“. Wenn diese Aussage jetzt noch mit einer Kreuztabelle und/oder einer Säulen-Grafik visualisiert wird, wäre das sehr schön. Und, leider auch noch nicht selbstverständlich: bevor ich einen Zusammenhang zwischen zwei Variablen berichte, habe ich natürlich die beiden Variablen univariat dargestellt, also für beide Variablen eine Häufigkeitsauswertung gemacht und gezeigt.


*Ich möchte hier explizit und absichtlich nicht darauf eingehen, was ganz genau die Signifikanz angibt, möchte nicht auf Fehler 1. und 2. Art eingehen und auch nicht auf Berechnungen zur Irrtumswahrscheinlichkeit bei mehrfacher Wiederholung. Auch nicht auf Unterschiede zwischen Varianz und Korrelation. Dies lässt sich leicht nachlesen. Aber aus meiner Sicht lenken die vielen mathematischen (und zum Teil auch philosophischen) Exkursionen zu oft ab und verwirren mehr als dass sie helfen, die grundlegende Funktionsweise zu verstehen. Einen ausführlichen Beitrag über die Geschichte des p-Werts, die genaue Abgrenzung der Irrtumswahrscheinlichkeit und den aktuellen Stand der Diskussion um den Missbrauch des p-Werts gibt es bei Spektrum.de.