Eine ordinale Regression rechnen (ordinale mulitple Regression)

Wie rechnet man eine Vorhersage am Beispiel der ordinalen Regression?

Eine Vorhersage ist meist so aufgebaut: Es gibt eine Zielvariable, die man vorhersagen möchte (diese ist in diesem Fall ordinal, d.h. mindestens ranggeordnet) und es gibt mehrere vorhersagende Variablen. Die vorherzusagende Variable heißt sinnigerweise meist Ziel- oder abhängige Variable, die Vorhersagenden nennt man Prädiktoren.

Ein Beispiel: Man möchte eine Temperaturänderung vorhersagen. Diese Zielvariable soll in 3 ranggeordneten Abschnitten vorliegen (1 = die Tagestemperatur hüpft unter 20° C, 2 = sie springt zwischen 20 und 30° C und 3 = sie hüpft über 30°C).
Ranggeordnet ist es deswegen, weil jede Kategorie höhere Temperaturen anzeigt, allerdings sind die Abschnitte nicht gleich breit (das wäre eine Intervallskala). Sie können auch nicht ins Verhältnis gesetzt werden (z.B. ist die Kategorie > 30° hat nicht die 1,5-fache Wertigkeit der untersten Kategorie, wenn das wäre, wäre es eine Rationalskala, die Kelvin-Skala wäre eine solche).

Als Prädiktoren in unserem Beispiel zählt man größere Wolken und die Sonnenstunden am Tag, um einen Temperatursprung vorherzusagen. Diese Daten sehen so aus

Wolkenzahl	Sonnenstunden	Temperatur- erwartung
10	5	1
8	10	3
9	8	3
9	7	3
9	2	1
4	1	1
4	2	1
4	3	2
4	1	1
1	1	1
1	2	3
1	3	2
3	2	1
2	1	2

Anmerkung: Werte der Temperaturerwartung: 1 = kleiner 20° C, 2 = zwischen, 20 und 30° C und 3 = 30°C oder wärmer

Ich würde empfehlen, die ordinale Regression mit dem R zu rechnen. Kopieren Sie diese Zeilen in Ihr R-Studio.

data = data.frame(wolken = c(10, 8, 9, 9, 9, 4, 4, 4, 4, 1, 1, 1, 3, 2), sonnenstunden = c(5,10,8,7,2,1,2,3,1,1,2,3,2,1), temperaturaenderung = c(1,3,3,3,1,1,1,2,1,1,3,2,1,2))
print(data)
library(MASS)
fit = polr(factor(temperaturaenderung) ~ wolken + sonnenstunden, data = data, Hess = TRUE)
t = coef(summary(fit))
p <- pnorm(abs(t[, 't value']), lower.tail = FALSE) * 2
t <- cbind(t, 'p value' = p)
print(t)

Nur wenige Punkte in der Ausgabe sind für die Interpretation wichtig (hier nur drei, diese sind fett markiert):

	Value Std.	Error	t value	p value
wolken	-1.015449	0.5262655	-1.929537	0.05366420
sonnenstunden	2.068856	0.9197171	2.249448	0.02448402
temp 1\|2	1.410606	1.2843784	1.098280	0.27208244
temp 2\|3	4.229909	2.0595476	2.053805	0.03999459

An der Spalte "p-value" sieht man (wenn p unter 0.05 liegt), dass 2 Prädiktoren signifikant sind (die Wolkenzahl und die Sonnenstunden, ich gebe natürlich zu, das Beispiel ist konstruiert). Diese erlauben eine Vorhersage auf einen Temperatursprung (der, wie gesagt in ordinalen Kategorien vorlieg). Mit eine kleinen Einschränkung: Die Vorhersagbarkeit betrifft nur den Sprung von mittlerer Temperatur auf die hohe (d.h. nur der Sprung von Stufen 2 auf 3 (2|3) läßt sich vorhersagen)

SPSS, R, und andere Apps für die Statistik

SPSS

PSPP als freie Alternative vs. SPSS

R als kostenlose Alternative

Vergleich von R vs SPSS vs. Jamovi vs SAS

R installieren

Weitere Links

SPSS, das Allround-Knife

Der Chi²-Test

Eine ANOVA zur Frage von Gruppenunterschieden (ANOVA = Analysis of Variance)

Der t-Test zur Frage von Gruppenunterschieden

Der t-Test zur Frage, ob sich Messwiederholungen unterscheiden

Der U-Test zur Frage von Gruppenunterschieden

R, ein kostenloses Programm mit starker Verbreitung

Übereinstimmung zweier Methoden graphisch anzeigen lassen (Bland-Altman Plot)

Ein lineares Vorhersagemodell rechnen (eine lineare mulitple Regression)

Eine Korrelation rechnen

Eine Rang-Korrelation (nach Spearman) rechnen

Fragen zusammenfassen (summieren, aggregieren)

Eine mixed ANOVA (Vergleich zwischen Gruppen, die eine Messwiederholung haben) rechnen

Ein Torten-/Kuchen-Diagramm in 3D

Ein Balken-/Histogramm erstellen (2 Gruppen im Vergleich)

Eine deskriptive Statistik erstellen

Eine ordinale Regression rechnen

Eine Inzidenzrate bewerten

Zwei Gruppen im Mittel mittels Python vergleichen (t-Test)

Zwei Gruppen (ohne Rückgriff auf die vielen Voraussetzungen des t-Tests) mittels Python vergleichen (U-Test)

Zwei binäre Reihen auf Änderung prüfen (McNemar-Test)

Eine Verlaufsgraphik von Mittelwerten mit Streubalken

Ein 2D-Kuchen mit ggplot

Eine Inzidenzrate mit R bewerten (passt meine Beobachtete zu der der Population, die ich aus der Literatur kenne?)

Zwei Inzidenzen mit R vergleichen

Eine Rang-Varianzanalyse (Rang-ANOVA, Kruskal-Wallis-Test) rechnen, d.h. 2 oder mehr Gruppen vergleichen

Eine Partialkorrelation rechnen, d.h. eine Korrelation (Eiskremverzehr und Sonnenbrand), aus der eine Drittvariable (Sonnenstunden) eliminiert ist

Einen Median-Test rechnen, d.h. weichen 2 Gruppen unterschiedlich stark vom Gesamt-Median ab?

Eine Regession zur Vorhersage bzw. Erklärung von Häufigkeitsdaten rechnen (Poisson-Regresion)

Ein einfaches Säulendiagramm mehrerer Gruppen

Ein Balken-/Histogramm erstellen (die Verteilung einer Population)

Ein Säulendiagramm, wenn wiederholt gemessen wird

Vorteile einer randomisierten Studie

Vorteile von Apriori-Hypothesen

Ein Boxplot für mehrere Gruppen