Statistik-Beratung: Streudiagramm mit R

Das Streudiagramm ist die Standard-Graphik der statistischen Beratung und dient zur Visualisierung des Zusammenhanges zwischen zwei metrischen Variablen. Lassen Sie uns zunächst künstlich zwei Variablen X und Y erzeugen, und dann den Zusammenhang zwischen X und Y in einem Streudiagramm darstellen.

Einfache Streudiagramme mit R erstellen

Geben Sie die folgenden zwei Zeilen Code in die R-Console ein, um die Variablen X und Y zu erzeugen:

 

X <- runif(100,0,20)

Y <- 5 + 0.4*X + rnorm(100,0,1)

 

Mit diesem Code legen wir X als einen Datensatz von 100 zufälligen Zahlen zwischen 0 und 20 fest. Die variable Y berechnen wir derart, dass zwischen X und Y absichtlich ein linearer Zusammenhang entsteht.

Nun erzeugen wir zunächst ein einfaches Streudiagramm von X und Y, wozu wir die R-Funktion plot() verwenden. Geben Sie den folgenden Code in R ein:

 

plot(X,Y)

 

Hierdurch erhalten Sie im R-Graphik-Fenster das folgende Schaubild:

Es handelt sich um ein einfaches Streudiagramm. Sie erkennen, dass ein positiver Zusammenhang zwischen X und Y vorliegt, d.h. je höher X ist, desto höher ist auch Y. 

Wir möchten nun zunächst die Achsenbeschriftungen ändern und darüberhinaus die Punkte in roter Farbe darstellen. Hierzu verwenden Sie den folgenden R-Code:

 

plot(X,Y,xlab="Unabhängige Variable",ylab="Abhängige Variable",col="red")

 

Die Achsenbeschriftungen haben wurden gemäß der üblichen Konvention gewählt, nach der auf der X-Achse stets die unabhängige und auf der y-Achse die abhängige Variable dargestellt wird. Wir erhalten durch diese Eingabe das folgende Schaubild:

Anstatt der roten Farbe sind in R auch zahlreiche weitere Farben verfügbar. Probieren Sie den eben eingegebenen Befehl z.B. mit "green" oder "blue" anstatt von "red".

 

Als nächstes möchten wir eine Trendlinie in das Schaubild hinzufügen.

Die Trendlinie wird mittels einer linearen Regression mit R berechnet.

 

Streudiagramm mit Regressionsgerade in R

Hierzu, und um die so berechnete Gerade in das Schaubild hinzuzufügen, verwenden Sie den folgenden Befehl:

 

abline(lm(Y~X)$coef) 

 

Wir erhalten dadurch in R das folgende Streudiagramm mit eingezeichneter Regressionsgerade:

Man erkennt unschwer, dass die Regressionsgerade den Verlauf der Daten sehr gut wiedergibt. 

 

Wenn Sie die Regressions-gleichung der Gerade sehen möchten, dann benutzen Sie den summary-Befehl, um sich die Ergebnisse der Regression anzusehen. Verwenden Sie hierzu den folgenden Code:

 

summary(lm(Y~X))

 

Sie erhalten hierdurch den Output der linearen Regression mit abhängiger Variable Y und unabhängiger Variable X, der folgendermaßen aussieht: 

Man erkennt folgendes: Der Achsenabschnitt (Intercept) beträgt 4.7626. Dies ist die Höhe, auf der die Regressionsgerade die y-Achse schneidet. Der Regressionskoeffizient der unabhängigen Variable X beträgt 0.4094. Die Regressionsgleichung lautet also Y =  0.4094*X + 4.7626. Diese Zahlen sollten Ihnen bekannt vorkommen. Bei der Erzeugung der Daten haben wir die Regressionsgleichung Y = 0.4*X + 5 verwendet. 

Weiterhin erkennen Sie im Output der R-Konsole, dass X in dieser Regression einen signifikanten Effekt hat, da in der Zeile die zu X gehört ganz rechts drei Sternchen abgebildet sind. Drei Sterne kennzeichnen hierbei, dass der p-Wert kleiner ist als 0.001, somit hat X einen hochsignifikanten Einfluss auf Y. 

Benötigen Sie einen persönlichen Termin zum Thema Statistik? Nehmen Sie Kontakt zu uns auf und lassen sie sich statistisch beraten.