Statistik
Einige statistische Begriffe in Kurzform.
- Variablen
- T-Wert
- Z-Score / Z-Wert
- Standardabweichung
- Pearson-Korrelationskoeffizient (Produkt-Moment-Korrelationskoeffizient)
- Chi-Quadrat
- Phi-Koeffizient für Korrelation dichotomer Werte
- Cramers V
- Spearmans Rho
- Kendals Tau
- Streudiagramme
- Korrelation vs. Kausalität
- Online-Statistik-Rechner
Variablen
Nominalskalierung
Wert beinhaltet Wort / Namen (“Nomen”), z.B. Frage nach dem Beruf.
Dichotome Werte
Wert mit max. 2 Ausprägungen, wie z.B. ja / nein.
Ordinalskalierung
Absteigende oder aufsteigende Reihenfolge (“Ordnung”), nicht notwendigerweise mit gleichen Abständen.
T-Wert
Differenz von zwei Stichprobenmittelwerten, angegeben in Einheiten des Standardfehlers.
Z-Score / Z-Wert
Entfernung eines Datenpunktes vom Mittelwert des Datensatzes, angegeben in Standardabweichungen.
Standardabweichung
Wurzel aus dem Durchschnitt der quadrierten Entfernung der Datenpunkte vom Mittelwert.
In anderen Worten:
- Abweichung vom Mittelwert x Abweichung vom Mittelwert wird für jeden Datensatz (Probanden) errechnet
- Dieser Wert wird von allen Datensätzen (Probanden) summiert
- Vom Ergebnis wird die Wurzel gebildet
Maß der Streuung der Daten um den arithmetischen Mittelwert.
Kleine Standardabweichung: Die Datenpunkte liegen nah am Durchschnitt. Große Standardabweichung: Die Daten sind breit gestreut.
Einheit: Wie Messwerte.
Anwendungsbereich:
Werte, die mindestens Intervallskalenniveau haben, mithin einen Mittelwert bilden können.
Pearson-Korrelationskoeffizient (Produkt-Moment-Korrelationskoeffizient)
- Summe der Kreuzprodukte aller Probanden. Genauer: Summe der Werte von allen Probanden aus der Abweichung der Werte eines Probanden vom Mittelwert aller Probanden der X-Achse mal demselben Wert der Y-Achse.
- Kovarianz: ermittelter Wert wird durch Anzahl der Probanden geteilt. Damit wird Wert unabhängig von der Größe der Probandenzahl,
- Kovarianz wird durch Produkt der Standardabweichungen von Y und X geteilt. Damit wird Wert unabhängig von der verwendeten Maßeinheit und somit über verschiedene Testsettings vergleichbar.
Bezeichner: r
Anwendungsbereich:
- Werte, die mindestens Intervallskalenniveau
- bei metrischen Merkmalen, wenn ein linearer Zusammenhang vermutet wird
Interpretation:
r = - 1: perfekte negative Korrelation
r = - 0,5 und höher: hohe negative Korrelation
r = - 0,3: mittlere negative Korrelation
r = - 0,1: niedrige negative Korrelation
r = 0: keine Korrelation
r = 0,1: niedrige positive Korrelation
r = 0,3: mittlere positive Korrelation
r = 0,5 und höher: hohe positive Korrelation
r = 1: perfekte positive Korrelation
Chi-Quadrat
Misst die Stärke der Korrelation zwischen nominalskalierten Merkmalen.
Bezeichner: χ2
Interpretation:
χ2 = 0: keinerlei Korrelation
Wert nach oben ist unbegrenzt
Phi-Koeffizient für Korrelation dichotomer Werte
Phi-Koeffizient = Wurzel aus (Chi-Quadrat / Anzahl der Werte)
Berechnung aus Vierfeldertafel
X: nein | X: ja | |
---|---|---|
Y: nein | A | B |
Y: ja | C | D |
Phi-Koeffizient = (A x D - B x C) geteilt durch Wurzel aus ((A + B) x (C + D) x (A + C) x (B + D))
Phi normiert den Chi-Quadrat-Koeffizienten auf Werte zwischen 0 und 1, was die Ergebnisse vergleichbar macht.
Anwendungsbereich:
- dichotome Werte (Wert mit max. 2 Ausprägungen, wie z.B. ja / nein)
- nur im Falle einer Vierfeldertafel (2 × 2 - Tabelle) anwendbar
Phi = 0: keine Korrelation
Phi = 0,1: niedrige Korrelation
Phi = 0,3: mittlere Korrelation
Phi = 0,5 und höher: hohe Korrelation
Phi = 1: perfekte Korrelation
Cramers V
Cramers V misst die Stärke der Korrelation zwischen nominalskalierten Merkmalen.
Berechnung:
- Chi-Quadrat wird geteilt durch (Anzahl der Messwerte mal [Minimum der Zeilen- und Spaltenzahl der Kreuztabelle minus 1])
- Aus dem Ergebnis wird die Wurzel gezogen
Unterer Wert: 0 (keine Korrelation)
Oberer Wert: 1 (maximaler Zusammenhang)
Anwendungsbereich:
- Kreuztabellen mit mindestens 2 x 2 Feldern
Spearmans Rho
Andere Namen: Spearman-Korrelation, Spearman-Rangkorrelation, Rangkorrelation, Rangkorrelationskoeffizient
Zweck:
Messung der Korrelation von Rangfolgen
Berechnung:
Rho = 1 - (6 × Summe der quadrierten Rangdifferenzen) / (Anzahl Datensätze × [Anzahl Datensätze x Anzahl Datensätze - 1]).
Anwendungsbereich:
- mindestens eines der zwei Merkmale ist nur ordinalskaliert und nicht intervallskaliert
oder - bei metrischen Merkmalen, wenn kein linearer Zusammenhang vermutet wird (bei einem linearen Zusammenhang ist der Pearson-Korrelationskoeffizient geeignet).
Interpretation:
Rho = - 1: perfekte negative Korrelation
Rho = - 0,5 und höher: hohe negative Korrelation
Rho = - 0,3: mittlere negative Korrelation
Rho = - 0,1: niedrige negative Korrelation
Rho = 0: keine Korrelation
Rho = 0,1: niedrige positive Korrelation
Rho = 0,3: mittlere positive Korrelation
Rho = 0,5 und höher: hohe positive Korrelation
Rho = 1: perfekte positive Korrelation
Kendals Tau
Andere Namen: Kendall-Rangkorrelationskoeffizient, Kendall’s τ (griechischer Buchstabe Tau), Kendalls Konkordanzkoeffizient
Zweck:
Messung der Korrelation von ordinalskalierter Werte (Rangfolgen)
Berechnung:
Tau = (Konkordante Paare - Diskordante Paare) / (Konkordante Paare + Diskordante Paare)
Anwendungsbereich:
- Daten müssen nicht normalverteilt sein
- Beide Variablen müssen nur ordinales Skalenniveau haben
- besser als Spearmans Rho, wenn sehr wenige Daten mit vielen Rangbindungen vorliegen
Interpretation:
Tau = - 1: perfekte negative Korrelation
Tau = - 0,8: hohe negative Korrelation
Tau = - 0,5: mittlere negative Korrelation
Tau = - 0,2: niedrige negative Korrelation
Tau = 0: keine Korrelation
Tau = 0,2: niedrige positive Korrelation
Tau = 0,5: mittlere positive Korrelation
Tau = 0,8: hohe positive Korrelation
Tau = 1: perfekte positive Korrelation
Streudiagramme
Die nachfolgenden Streudiagramme veranschaulichen, wie Datenpunkte und Trendlinien in verschiedenen Korrelationsmustern aussehen.
Keine Korrelation:
Mittlere positive Korrelation:
Leicht negative Korrelation:
Korrelation vs. Kausalität
Eine Korrelation ist Voraussetzung für eine Kausalität, sagt aber noch nicht, dass eine Kausalität vorliegt.
Beispiel: Bei Kindern korreliert die Körpergröße stark mit den mathematischen Kenntnissen, ist aber keineswegs kausal. Es liegt eine “Scheinkorrelation” vor, obwohl Scheinkausalität gemeint ist, denn Korrelation besteht ja.
Werden Experimente so gestaltet, dass ausschließlich eine Variable verändert wird, kann dies eine Aussage über Kausalität erlauben.
Im Beispiel mit der Körpergröße und den Mathematikkenntnissen könnten dazu lauter gleich alte Kinder mit gleichem Gewicht in derselben Klassenstufe derselben Schulart miteinander verglichen werden. Es ist absehbar, dass die Körpergröße dann nicht mehr mit den Mathematikkenntnissen korreliert, und infolgedessen auch nicht kausal sein kann.
Die Berechnung von Partialkorrelationen erlaubt dies auch, ohne dass alle anderen Variablen unverändert bleiben.
Online-Statistik-Rechner
Während für professionelle Statistikauswertungen spezialisierte Programme verwendet werden (MATLAB, Statistica, SPSS oder auch freie Software wie PSPP, R, gretl)12, die weitaus leistungsfähiger sind als Excel, gibt es auch einige Online-Rechner, die einfache statistische Analysen ermöglichen.
Numiqo Onlinerechner Deskriptive Statistik:
- Hypothesentest
- Chi-Quadrat-Test
- t-Test
- Abhängiger t-Test
- ANOVA
- Dreifaktorielle ANOVA
- Mixed ANOVA
- Mann-Whitney U-Test
- Wilcoxon-Test
- Kruskal-Wallis-Test
- Friedman-Test
- Binomialtest