R Grundlagen

Betrachten Sie das nachfolgende Beispiel einer kleinen Analyse mit R. Nehmen wir an, es liegen zwei Varianten eines Produktes vor. Es soll nun untersucht werden, welche Variante des Produktes die größere Akzeptanz bei den Kunden besitzt. Hierzu werden 20 Versuchspersonen rekrutiert und in zwei Gruppen aufgeteilt. Jede der beiden Gruppen von Versuchspersonen erhält eine Variante des Produkts, dessen Attraktivität sie auf einer Skala von 0 bis 10 angeben sollen. Aus der Kundenbefragung resultieren die folgenden Punktzahlen:

 

Produktvariante A: 5, 4, 5, 5, 4, 6, 4, 3, 5, 4

Produktvariante B: 5, 3, 9, 7, 3, 7, 8, 9, 8, 5

 

Diese Daten werden nun folgendermaßen in R eingegeben:

 

A <- c(5, 4 ,5, 5, 4, 6, 4, 3, 5, 4)

B <- c(5, 3, 9, 7, 3, 7, 8, 9, 8, 5)

 

Nach der Eingabe dieser Befehle liegen die Daten in R vor und können für weitere Analysen verwendet werden. Um einen Überblick über die Daten zu bekommen, wird zunächst ein einfacher Boxplot der beiden Datenreihen erstellt. Hierzu wird der folgende R-Befehl verwendet:

 

boxplot(A,B,ylab="Kundenbewertung",names=c("A","B"),

col=c("tomato","cyan"),boxwex=0.5)

 

Als Argumente des Befehls boxplot() wurden zunächst die Datenreihen A und B angegeben. Das Argument ylab="Kundenbewertung"  bewirkt, dass die y-Achse des Schaubilds mit der Beschriftung Kundenbewertung versehen wird. Durch das Argument names=c("A","B") werden die Boxplots mit A bzw. B beschriftet, die Option col=c("tomato","cyan") verleiht den Boxplots ihre Farbe und mit dem Argument boxwex=0.5 wird die Breite der Boxen kontrolliert. Das Ergebnis der Eingabe ist die folgende Abbildung:

 

Boxplot mit R - Statistik Beratung

Man erkennt, dass der Boxplot für Gruppe A deutlich niedriger liegt als für Gruppe A, was vermuten lässt dass Produkt B von den Kunden besser bewertet wird als Produkt A. Um diese Vermutung zu untermauern, vergleichen wir die beiden Gruppen in R mittels eines t-Tests für unabhängige Stichproben. Hierzu verwenden wir den folgenden R-Code:

 

t.test(A,B,paired=FALSE)

 

Als Argumente des Befehls t.test werden A und B, d.h. die zuvor definierten Daten eingegeben. Des Weiteren wird mittels der Option paired=FALSE festgelegt, dass es sich bei den Daten um unabhängige Stichproben handelt.

Die beiden Stichproben sind unabhängig, da jede Gruppe aus unterschiedlichen Versuchspersonen besteht.

Als Ergebnis erhält man folgenden R-Output:

 

 

Dieser Output enthält in der 2. Zeile als wichtigste Kennzahl den p-Wert des Tests. Dieser beträgt 0.02986 und ist damit kleiner als 0.05 (das allgemein übliche Konfidenzniveau). Da der p-Wert kleiner als 0.05 ist, liegt ein statistisch signifikanter Unterschied zwischen den beiden Produktvarianten hinsichtlich der Kundenbewertung vor.

 

Ganz unten im Output sehen Sie die Werte 4.5 und 6.4. Dies sind die Mittelwerte der Kundenbewertung der beiden Produktvarianten. Die Variante A hat somit eine durchschnittliche Bewertung von 4.5 während Variante B eine durchschnittliche Bewertung von 6.4 aufweist. Der signifikante Unterschied zwischen A und B besteht also darin, dass Variante B signifikant besser bewertet wird als Variante A.