Ein lineares Vorhersagemodell rechnen (lineare mulitple Regression)

Wie rechnet man eine Vorhersage am Beispiel der linearen Regression?

Eine Vorhersage ist meist so aufgebaut: Es gibt eine Zielvariable, die man vorhersagen möchte und es gibt mehrere vorhersagende Variablen. Die vorherzusagende Variable heißt sinnigerweise meist Ziel- oder abhängige Variable, die Vorhersagenden nennt man Prädiktoren.

Ein Beispiel für eine lineare Regression

Ein Beispiel: Man möchte die Temperaturänderung vorhersagen (Zielvariable). Als Prädiktoren zählt man größere Wolken und die Sonnenstunden am Tag. Daraus möchte man die Temperaturänderung vorhersagen, einerseits ob das in signifikanter Weise geht (Gesamtmodell), welcher der Prädiktoren dafür verantwortlich ist (p-Werte) und wie stark die Vorhersage ist (Koeffizienten bzw. "estimate"). Diese Daten für das Mini-Beispiel sehen so aus

Wolkenzahl	Sonnenstunden	Temperatur- Veränderung
10	5	-5
8	10	+5
9	8	-1
9	7	-2
9	2	-7
9	3	-6
9	2	-7
9	4	-5

Die R-Befehlszeilen

Ich würde empfehlen, die Regression mit dem R zu rechnen. Kopieren Sie diese Zeilen in Ihr R-Studio.

data = data.frame(wolken = c(5, 10, 8, 7, 2, 3, 2, 4), sonnenstunden = c(10,8,9,9,9,9,9,9), temperaturaenderung = c(-2,4,0,3,-5,-6,-7,-5))
reg = lm(temperaturaenderung ~ wolken + sonnenstunden, data = data)
summary(reg)

Die R-Ausgabe (nur die wichtigen Teile)

Nur wenige Punkte in der Ausgabe sind für die Interpretation wichtig (nur zwei):

	Estimate	Std. Error	t value	Pr(>\|t\|)
wolken	1.3695	0.2471	5.542	0.00263 **
sonnenstunden	0.4238	1.3633	0.311	0.76847
F-statistic:	18.4	on 2 and 5 DF	p-value:	0.004946

Interpretation

An der Spalte "Pr(>|t|)" sieht man (wenn p unter 0.05 liegt), dass nur ein Prädiktor ein signifikanter ist (die Wolkenzahl).
Das Gesamtmodell ist (letzte Zeile der Ausgabe) ist mit p = 0.004946 ebenfalls signifikant, d.h. insgesamt funktioniert eine Vorhersage.

SPSS, R, und andere Apps für die Statistik

SPSS

PSPP als freie Alternative vs. SPSS

R als kostenlose Alternative

Vergleich von R vs SPSS vs. Jamovi vs SAS

R installieren

Weitere Links

SPSS, das Allround-Knife

Der Chi²-Test

Eine ANOVA zur Frage von Gruppenunterschieden (ANOVA = Analysis of Variance)

Der t-Test zur Frage von Gruppenunterschieden

Der t-Test zur Frage, ob sich Messwiederholungen unterscheiden

Der U-Test zur Frage von Gruppenunterschieden

R, ein kostenloses Programm mit starker Verbreitung

Übereinstimmung zweier Methoden graphisch anzeigen lassen (Bland-Altman Plot)

Ein lineares Vorhersagemodell rechnen (eine lineare mulitple Regression)

Eine Korrelation rechnen

Eine Rang-Korrelation (nach Spearman) rechnen

Fragen zusammenfassen (summieren, aggregieren)

Eine mixed ANOVA (Vergleich zwischen Gruppen, die eine Messwiederholung haben) rechnen

Ein Torten-/Kuchen-Diagramm in 3D

Ein Balken-/Histogramm erstellen (2 Gruppen im Vergleich)

Eine deskriptive Statistik erstellen

Eine ordinale Regression rechnen

Eine Inzidenzrate bewerten

Zwei Gruppen im Mittel mittels Python vergleichen (t-Test)

Zwei Gruppen (ohne Rückgriff auf die vielen Voraussetzungen des t-Tests) mittels Python vergleichen (U-Test)

Zwei binäre Reihen auf Änderung prüfen (McNemar-Test)

Eine Verlaufsgraphik von Mittelwerten mit Streubalken

Ein 2D-Kuchen mit ggplot

Eine Inzidenzrate mit R bewerten (passt meine Beobachtete zu der der Population, die ich aus der Literatur kenne?)

Zwei Inzidenzen mit R vergleichen

Eine Rang-Varianzanalyse (Rang-ANOVA, Kruskal-Wallis-Test) rechnen, d.h. 2 oder mehr Gruppen vergleichen

Eine Partialkorrelation rechnen, d.h. eine Korrelation (Eiskremverzehr und Sonnenbrand), aus der eine Drittvariable (Sonnenstunden) eliminiert ist

Einen Median-Test rechnen, d.h. weichen 2 Gruppen unterschiedlich stark vom Gesamt-Median ab?

Eine Regession zur Vorhersage bzw. Erklärung von Häufigkeitsdaten rechnen (Poisson-Regresion)

Ein einfaches Säulendiagramm mehrerer Gruppen

Ein Balken-/Histogramm erstellen (die Verteilung einer Population)

Ein Säulendiagramm, wenn wiederholt gemessen wird

Vorteile einer randomisierten Studie

Vorteile von Apriori-Hypothesen

Ein Boxplot für mehrere Gruppen