Statistik hat doch was mit roten und blauen Kugeln und dem Zurücklegen zu tun, oder? Irgendwas mit Logik? Oder Grafiken?
Der Begriff „Statistik“ ist durchaus nicht eindeutig und die Unterbegriffe der Auswertungen innerhalb der Statistik wie „deskriptiv“ und „univariat“ führen zu weiterer Verwirrung. Hier ein Versuch, aufzuräumen.
Statistik abgegrenzt
Statistik ist nicht gleichzusetzen mit Wahrscheinlichkeitsrechnung. Statistik kann eigentlich einfacher als Datenanalyse bezeichnet werden. Sie basiert natürlich auf Mathematik, es wird schließlich gezählt und gerechnet. Und einige Bereiche der Statistik/Datenanalyse benutzen auch Verfahren der Stochastik/Wahrscheinlichkeitsrechnung. Nach der Definition ist Statistik ein Teilbereich der Mathematik und der Stochastik.
Statistik als Datenanalyse bedeutet hauptsächlich das Sammeln von Daten, das Aufbereiten in Datensätzen, die Auswertung und schließlich die Interpretation und Darstellung von Daten. Wir haben es also häufig mit Tabellen und Grafiken zu tun. In der modernen Datenanalyse ist die Mathematik und Stochastik, die in der Datenauswertung steckt, jedoch fast unsichtbar, da sie natürlich von Statistik-Programmen wie PSPP erledigt wird.
Statistik gegliedert
Von der einfachen Häufigkeitsauswertung bis hin zu komplexen Regressionsanalysen umfasst die Datenauswertung eine riesige Anzahl an möglichen Analysen. Da geht der Überblick schnell verloren. Eigentlich sind nur zwei Unterscheidungen wichtig: deskriptiv vs. induktiv und univariat vs. bi-/multivariat.
deskriptiv | induktiv | |
univariat | Häufigkeiten, Mittelwerte, Streuungen; z.B. Balkendiagramm, Arithmetisches Mittel, Varianz | Schätzungen; z.B. Konfidenzintervall des Mittelwerts |
bivariat | Kreuztabellen, Zusammenhänge, Varianzen; z.B. Pearson, Spearman, Eta² | Tests; z.B. T-Test, Anova |
multivariat | Regressionen, Faktorenanalyse, Reliabilität; z.B. Beta, R², Cronbach |
- deskriptiv: beschreibende Statistik: es werden Daten der Stichprobe ausgewertet, also von genau den Objekten oder Personen, die untersucht bzw. befragt wurden [Beispiel: Es wurden 100 Kaninchen untersucht und es wird berichtet, was über diese 100 Kaninchen herausgefunden wurde]
- induktiv: schließende Statistik: aus den Daten der Stichprobe wird auf die Grundgesamtheit geschlossen, die Erkenntnisse sollen also verallgemeinert werden – Voraussetzung hierfür ist natürlich, dass die Stichprobe repräsentativ ist [Beispiel: Es wurden 100 Kaninchen untersucht und die Ergebnisse dieser Stichprobe werden unter gewissen Annahmen verallgemeinert]
- univariat: Auswertung zu 1 Merkmal: es werden die Ergebnisse zu einer Frage bzw. zu einer Eigenschaft der Objekte berichtet [Beispiel: Gewicht der untersuchten Kaninchen]
- bivariat: Auswertung zu 2 Merkmalen: es werden die Ergebnisse von 2 Fragen bzw. 2 Eigenschaften miteinander kombiniert, um Zusammenhänge oder Unterschiede feststellen zu können [Beispiel: Zusammenhang zwischen Geschlecht und Gewicht bei den Kaninchen]
- multivariat: Auswertung zu mind. 3 Merkmalen: es werden die Daten von 3 oder mehr Fragen oder Eigenschaften kombiniert, um Zusammenhänge oder Gemeinsamkeiten zu finden [Beispiel: Zusammenspiel von Geschlecht, Fütterung und Gewicht bei den Kaninchen]
Zu allen diesen Bereichen der Datenanalyse gibt es zahllose Kennzahlen, Koeffizienten bzw. Verfahren. Es hilft, sowohl beim Verstehen einer Kennzahl als auch bei der Präsentation von Ergebnissen z.B. in einem Bericht, zunächst genau zu benennen, zu welchem dieser „Kästchen“ die Berechnung gehört. Wenn mir ein „Pearson“ präsentiert wird, weiß ich also, dass es sich um eine deskriptive bivariate Analyse handeln muss.
Hypothesen und Signifikanz
Gerade bei den Begriffen „Hypothesen“ und „Signifikanz“ gerät manchmal der Bezug zu der oben dargestellten Gliederung aus dem Blick.
Hypothesen gehören in die Schublade „induktiv“ mit „bi-/multivariat“. Die Vermutung, dass ältere Kaninchen nicht mehr so oft klettern ist also nur dann eine Hypothese, wenn ältere und jüngere Kaninchen untersucht wurden und aus den Merkmalen „Alter“ und „Häufigkeit Klettern“ ein Zusammenhang errechnet wird. Zusätzlich muss ich dann berechnen, ob dieser Zusammenhang auch verallgemeinerbar ist (s.u.). Wenn mich das nicht interessiert, und ich nur einen Zusammenhang in meiner Stichprobe (also bei meinen 30 Kaninchen) herausfinden möchte, habe ich keine Hypothese (auch keine Theorie), sondern schlicht eine Vermutung.
Signifikanz gehört ebenso in die Schublade „induktiv“ mit „bi-/multivariat“. Ich muss nur dann eine Signifikanz bzw. einen p-Wert ausweisen, wenn mich überhaupt interessiert, ob mein gefundener Zusammenhang auch verallgemeinert werden kann (hierfür muss die Stichprobe groß genug und repräsentativ sein).