Deskriptive Statistik mit R

In diesem Artikel finden Sie eine Einsteiger-freundliche Anleitung zur Berechnung deskriptiver Kennzahlen mit R. Wir benötigen hierzu einen Beispieldatensatz und entscheiden uns für den Datensatz InsectSprays. Dies ist ein in R vorinstallierter Übungs-Datensatz. Sehen Sie sich den Datensatz zunächst an, indem Sie in die R-Konsole InsectSprays eingeben:

Der Datensatz enthält die Variablen count und spray. Die Anzahl count bezeichnet die Anzahl an Insekten auf einer Pflanze, die mit einem bestimmten Insektenspray behandelt wurde. Die verschiedenen Insektensprays sind mit A, B, C, D, E, F bezeichnet. Jede Zeile gehört zu einer Pflanze.

Wir interessieren uns zunächst für die Variable count und berechnen daher einige deskriptive Kennzahlen. 

 

Mittelwert, Median & Modus mit R berechnen

Mittelwert, Median und Modus sind drei grundlegende Kennzahlen für die sogenannte "Zentrale Tendenz" oder "Lage", d.h. die ungefähre Mitte einer Datenreihe. Der Mittelwert und der Median werden in R mit folgenden Befehlen berechnet:

  • Mittelwert: mean(InsectSprays$count)
  • Median: median(InsectSprays$count)

Um den Modus zu berechnen gibt es keinen analogen Befehl. Um den Modus zu erhalten, berechnen Sie die Häufigkeitstabelle und lesen Sie aus der Tabelle die Zahl mit der größten Häufigkeit ab:

  • Modus: table(InsectSprays$count)

Bei Eingabe dieser drei Befehle in R erhalten Sie den folgenden Output:

Der Mittelwert der Insektenanzahl beträgt 9.5 und der Median liegt bei 7. Was den Modus angeht, so sieht man in der Tabelle, dass die Zahl 3 am häufigsten vorkommt (nämlich 8 mal). Somit ist 3 der Modus.

 

Standardabweichung, Varianz und Spannweite

Standardabweichung, Varianz und Spannweite sind Kennzahlen für die Streuung der Daten. Alle diese Kennzahlen werden umso größer, je größer die Streuung in einer Datenreihe ist. Wir berechnen die Zahlen mit den folgenden R-Kommandos:

  • Standardabweichung: sd(InsectSprays$count)
  • Varianz: var(InsectSprays$count)
  • Spannweite: range(InsectSprays$count)

Man erhält dadurch den folgenden Output:

Die Standardabweichung liegt bei 7.20. Das bedeutet, dass die Werte in Durchschnitt um 7.20 vom Mittelwert der Datenreihe entfernt liegen. Die Varianz von 51.89 ist einfach die quadrierte Standardabweichung. Das Ergebnis des range-Befehls besagt, dass das Minimum der Daten 0 beträgt und das Maximum 26. Die Spannweite der Daten ist definiert als Maximum minus Minimum, hier also 26-0=26.

 

Quantile in R berechnen

Quantile sind ebenfalls weitverbreitete Kennzahlen zur Beschreibung einer Variablen. Das 25%-Quantil z.B. ist der Wert, der größer ist als 25% der Werte der Datenreihe. Dementsprechend ist das 90%-Quantil derjenige Wert, der größer ist als 90% der Stichprobe.

Wir berechnen daher nun beispielhaft das 25%- und das 90%-Quantil der Variable count und nutzen dazu die folgenden Befehle:

  • 25%-Quantil: quantile(InsectSprays$count,0.25)
  • 90%-Quantil: quantile(InsectSprays$count,0.90)

Damit erhält man folgendes Ergebnis:

Dieses Ergebnis bedeutet, dass 25% der Werte kleiner oder gleich 3 sind. Ebenso sind 90% der Werte kleiner oder gleich 20.

Beachten Sie: Das 0%-Quantil ist immer das Minimum der Daten, und das 100%-Quantil ist immer das Maximum.

Quantile werden manchmal auch als Perzentile oder Fraktile bezeichnet.

 

Schiefe und Kurtosis in R

Weitere Kennzahlen sind die Schiefe und Kurtosis. Die Schiefe gibt an, wie symmetrisch eine Variable ist, und die Kurtosis, ob die Variable eher steilgipflig oder flach ist.

Wie demonstrieren die Eigenschaften Schiefe und Wölbung zunächst anhand einer Graphik. In nachfolgender Abbildung ist je eine symmetrische, eine rechtsschiefe und eine linksschiefe Verteilung dargestellt:

Die Kennzahl Schiefe ist wird Null bei einer perfekt symmetrischen Verteilung, größer als Null bei einer rechtsschiefen und kleiner als Null bei einer linksschiefen Verteilung. 

Berechnen wir nun mit R die Schiefe der obigen Datenreihe. Hierzu installieren Sie ein R-Package, nämlich das Paket moments. Um das Paket in R zu installieren, geben Sie die folgenden zwei Befehl ein:

 

install.packages(moments)

library(moments)

 

Sie haben das Paket nun installiert. Berechnen Sie nun in R die Schiefe der Variable InsectSprays$count. Verwenden Sie hierzu den Befehl

 

skewness(InsectSprays$count)

 

Als Ergebnis erhalten Sie einen Wert von 0.5709. Die Schiefe ist positiv, ist aber kleiner als 1. Somit kann man sagen, dass die Variable rechtsschief ist, wobei die Rechtsschiefe aber nur schwach ausgeprägt ist.

 

Eine weitere bekannte Kennzahl ist die Kurtosis. Um eine Vorstellung von der Bedeutung der Kurtosis zu erhalten, betrachten Sie nachfolgende Graphik. 

In dieser Graphik sind eine Normalverteilung, sowie eine steilgipflige (aka leptokurtisch) und eine flachgipflige (aka platykurtisch) dargestellt. 

Die steilgipflige Verteilung ist in der Mitte spitzer als die Normalverteilung und an den Rändern breiter. Bei der flachgipligen Verteilung ist es anders herum. Die Kurtosis ist nun eine Kennzahl, mit der untersucht wird, ob eine Verteilung im Vergleich zur Normalverteilung flachgipflig oder steilgipflig ist: 

  • Für eine Normalverteilung nimmt die Kurtosis genau den Wert 3 an.
  • Eine steilgipflige Verteilung hat eine Schiefe, die größer als 3 ist.
  • Für eine flachgipflige Verteilung ist die Schiefe kleiner als 3.
  • Beachten Sie: Anstatt der Schiefe wird häufig auch der sogenannte Exzess verwendet. Dies ist eine weitere Kennzahl, die definiert ist durch die Formel: Exzess = Schiefe - 3. 
  • Der Exzess ist somit größer als null, wenn die Verteilung steilgipflig ist, und kleiner als null bei einer flachgipfligen Verteilung.

Benötigen Sie eine Statistik-Beratung für Mediziner oder Statistik-Beratung für Studenten? Informieren Sie sich auf unserer Homepage oder nehmen Sie Kontakt zu uns auf.