Korrelation interpretieren

„Herzlichen Glückwunsch, Ihre Korrelation beträgt 0,3!“ Aha, und jetzt? Ich möchte in diesem Beitrag drei Aspekte erklären: die Stärke der Korrelation, die Richtung der Korrelation und die Signifikanz der Korrelation.

Bei einer Korrelation interessiert mich meist der Zusammenhang zwischen zwei Variablen bzw. Merkmalen, z.B. der Zusammenhang zwischen „Geschlecht“ und „Haarlänge“. Die Frage dahinter könnte also lauten: „Haben Frauen tendentiell längere Haare als Männer?“


Anmerkung 1: Da es hier um zwei Variablen geht, handelt es sich also um eine bivariate Korrelation. Dieses Beispiel ließe sich auch als Varianz berechnen, bei der der Fokus auf dem Unterschied liegt, hier also auf dem Unterschied zwischen Männern und Frauen in Bezug auf die Haarlänge. Bei zwei Variablen (Geschlecht, Haarlänge) und zwei Ausprägungen der unabhängigen Variablen (Männlich, Weiblich) kommt die Berechnung der Korrelation und der Varianz allerdings auf genau dasselbe raus.

Anmerkung 2: Bevor eine Korrelation gerechnet wird, sollte natürlich geklärt gewesen sein, WELCHE Korrelation benutzt werden kann. Alle Korrelationskoeffizienten haben Voraussetzungen, z.B. bezüglich des Skalenniveaus oder der Linearität. Einfaches Beispiel: wenn ich Befragte nach ihrer Lieblingsfarbe gefragt habe (rot, grün, gelb, blau), kann ich daraus kein Arithmetisches Mittel berechnen (mittlere Lieblingsfarbe wäre dann wohl matschbraun), und entsprechend auch keine Korrelation nach Pearson.


Stärke der Korrelation

Jeder Korrelationskoeffizient gibt als Ergebnis eine einfache Zahl aus, z.B. „0,3“. Die meisten gebräuchlichen Korrelationskoeffizienten (z.B. Pearson, Spearman, Kontingenzkoeffizient, Eta-Quadrat) geben eine Zahl zwischen 0 und 1 bzw. zwischen 0 und -1 aus, was sie einfach zu interpretieren macht. Hier kann man sich als einfache Fautsregel merken: ab ±0,2 gibt es einen Zusammenhang zwischen den beiden Variablen, ab ±0,4 gibt es einen deutlichen Zusammenhang*. Wichtig dabei: es geht nur um die Zahl, nicht um das Vorzeichen – für die Stärke der Korrelation ist es egal, ob der Wert positiv oder negativ ist.

Für das Beispiel der Haarlänge und des Geschlechts gehe ich davon aus, dass wir eine Korrelation von (frei geraten) 0,5 haben, also einen deutlichen Zusammenhang zwischen Geschlecht und Haarlänge. Aber woher weiß ich jetzt, ob Frauen oder Männer längere Haare haben?

Richtung der Korrelation

Manche Korrelationskoeffizienten können auch eine Richtung der Korrelation angeben, können also positive und negative Werte ausgeben (z.B. Pearson, Spearman). Um es nochmals deutlich zu sagen: positive und negative Werte haben nichts mit der Stärke (oder gar der Signifikanz) der Korrelation zu tun. Um die Richtung der Korrelation interpretieren zu können, müssen wir wissen, wie die Variablen codiert waren. (In einem Datensatz wird pro befragter Person ja nicht „männlich“ und „kurze Haare“ sondern jeweils eine Zahl, also eine Codierung, eingegeben.)

Gehen wir in unserem Beispiel von folgender Codierung aus:

Geschlecht
männlich = 0
weiblich = 1

Haarlänge
sehr kurz = 1
eher kurz = 2
eher lang = 3
sehr lang = 4

Wir folgen jetzt mal unserem Vorurteil, dass Frauen ihre Haare eher länger lassen als Männer. Dann würden Frauen beim Geschlecht also den größeren Wert (1) angeben, genauso würden sie bei der Haarlänge häufiger die größeren Werte angeben (3 oder 4). Wir werden also nach unserer Befragung viele Befragte haben, die bei beiden Variablen die jeweils kleineren bzw. die jeweils größeren Codierungen angegeben haben. Also: je kleiner die Codierung bei der ersten Variable, desto kleiner die Codierung bei der zweiten Variable. Also: je kleiner desto kleiner, und: je größer desto größer.

Wenn diese Tendenz in den Daten zu sehen ist, wird die Korrelation positiv sein, also für unser Beispiel (frei erfunden) eine Korrelation von (plus) 0,5 herauskommen. Umgekehrt heißt das: für die Interpretation der Richtung der Korrelation muss ich zwingend die Codierung der beteiligten Variablen kennen.

Zweites Beispiel, die Kombination aus Geschlecht und Nettoeinkommen:

Geschlecht
männlich = 0
weiblich = 1

Einkommen
sehr gering = 1
eher gering = 2
eher groß = 3
sehr groß = 4

Nach wie vor ist es in den meisten Ländern so, dass Frauen ein geringeres Einkommen haben als Männer. In einer Befragung würden Personen, die bei Geschlecht den niedrigeren Wert (0 = männlich) angegeben haben, beim Einkommen höhere Werte angeben (3 oder 4). Also: je kleiner desto größer bzw. je größer deso kleiner. Hier würde also eine negative Korrelation herauskommen, z.B. -0,4.

Signifikanz der Korrelation

In der Alltagssprache wird „signifikant“ oft gleichbedeutend mit „deutlich“ benutzt. So könnte jemand z.B. mitteilen, dass ihm das Wetter heute signifikant besser gefällt als gestern. In der Statistik hat „signifikant“ allerdings eine ganz bestimmte Bedeutung, die nichts mit der Stärke der Korrelation zu tun hat.

Die Angabe der Signifikanz brauche ich (nur!) dann, wenn ich Daten in einer Stichprobe erhoben habe und eine Aussage darüber teffen will, ob der Zusammenhang, den ich in der Stichprobe gefunden habe, vermutlich auch im Allgemeinen gilt. Ich habe z.B. 100 Personen zu ihrem Geschlecht und ihrem Einkommen befragt und möchte jetzt eine Aussage darüber treffen, ob der Zusammenhang, den ich da gefunden habe, auch über die Stichprobe hinaus (für die „Grundgesamtheit“) gilt. Dies setzt natürlich eine ausreichend große Stichprobe sowie eine Repräsentativität derselben voraus. Wenn ich eine Aussage nur über die Gruppe machen möchte, die ich befragt habe (z.B. die Studierenden meines Statistik-Kurses), benötige ich keine Angabe zur Signifikanz!

Wenn ich also in der Stichprobe einen Zusammenhang (oder einen Nicht-Zusammenhang) gefunden habe und ich eine Aussage über die Stichprobe hinaus treffen will, kann ich angeben, ob der Zusammenhang auch signifikant ist. Auch zur Signifikanz gibt mir das Statistik-Programm einen Wert aus, den p-Wert. Idealerweise mache ich also eine Aussage zu einem Zusammenhang und gebe dann sowohl den Wert für den Zusammenhang als auch den Wert für die Signifikanz an.

Für unser Beispiel: Männer erzielen in Deutschland ein höheres Einkommen als Frauen (r = -0,4; p = 0,01).


*Dies ist eine grobe Verallgemeinerung. Genau genommen gibt es zu jedem Korrelationskoeffizienten und für jedes Fachgebiet unterschiedliche Empfehlungen zur Einteilung der Effektstärke – und dazu wieder zahlreiche Meinungen und Diskussionen (einen kurzen Überblick dazu gibt es bei Wiki, eine ausführliche Abwägung von Lind; das „Original“ der Einteilungen von J. Cohen gibt es bei Jstor). Meine Festlegung von 0,2 ist gewissermaßen ein Mittelwert aus den unterschiedlichen Effektstärke-Einteilungen. Ich empfehle – analog zur Festlegung einer akzeptieren Irrtumswahrscheinlichkeit für die Signifikanz (Alpha) – die Festlegung eines Schwellwertes für die Effektstärke der Korrelationen am Anfang des Berichts zur eigenen Untersuchung.