Deskriptive Statistik mit R

In diesem Artikel finden Sie eine Einsteiger-freundliche Anleitung zur Berechnung deskriptiver Kennzahlen mit R. Wir benötigen hierzu einen Beispieldatensatz und entscheiden uns für den Datensatz InsectSprays. Dies ist ein in R vorinstallierter Übungs-Datensatz. Sehen Sie sich den Datensatz zunächst an, indem Sie in die R-Konsole InsectSprays eingeben:

Der Datensatz enthält die Variablen count und spray. Die Anzahl count bezeichnet die Anzahl an Insekten auf einer Pflanze, die mit einem bestimmten Insektenspray behandelt wurde. Die verschiedenen Insektensprays sind mit A, B, C, D, E, F bezeichnet. Jede Zeile gehört zu einer Pflanze.

Wir interessieren uns zunächst für die Variable count und berechnen daher einige deskriptive Kennzahlen für count.

Mittelwert, Median & Modus mit R berechnen

Mittelwert, Median und Modus sind drei grundlegende Kennzahlen für die sogenannte "Zentrale Tendenz" oder "Lage", d.h. die ungefähre Mitte einer Datenreihe. Der Mittelwert und der Median werden in R mit den folgenden Befehlen berechnet:

Mittelwert: mean(InsectSprays$count)
Median: median(InsectSprays$count)

Um den Modus zu erhalten, berechnen Sie die Häufigkeitstabelle und lesen Sie aus der Tabelle die Zahl mit der größten Häufigkeit ab. Verwenden Sie hierzu den folgenden Befehl:

Modus: table(InsectSprays$count)

Bei Eingabe dieser drei Befehle in R erhalten Sie den folgenden Output:

Der Mittelwert der Insektenanzahl beträgt 9.5 und der Median liegt bei 7. Was den Modus angeht, so sieht man in der Tabelle, dass die Zahl 3 am häufigsten vorkommt (nämlich 8 mal). Somit ist 3 der Modus. Ob Sie den Mittelwert, den Median und den Modus berechnen können, hängt vom Messniveau der untersuchten Variable ab:

Der Mittelwert kann nur für metrisch skalierte Variablen berechnet werden. Der Median kann nur für metrische und ordinale Variablen berechnet werden, während der Modus für metrische, ordinale und kategorielle Variablen berechnet werden kann. Machen Sie also nicht den Fehler, einen Mittelwert für eine ordinale oder einen Median für eine kategorielle Variable berechnen zu wollen.

Beachten Sie weiterhin: In empirischen Arbeiten ist es im Allgemeinen unüblich, den Modus zu berechnen. Falls Sie also eine Masterarbeit oder Doktorarbeit schreiben, dann müssen Sie in aller Regel keinen Modus berechnen. Im Allgemeinen ist es in empirischen Arbeiten ausreichend, im Bereich deskriptive Statistik für jede untersuchte metrische Variable den Mittelwert anzugeben. Falls Sie mit rechtsschiefen metrischen Variablen arbeiten, kann es jedoch sinnvoll sein, anstatt des Mittelwerts den Median anzugeben. Dies ist insbesondere üblich im Bereich Medizin und in den Naturwissenschaften.

Standardabweichung, Varianz und Spannweite

Standardabweichung, Varianz und Spannweite sind Kennzahlen für die Streuung der Daten. Alle diese Kennzahlen werden umso größer, je größer die Streuung in einer Datenreihe ist. Wir berechnen die Zahlen mit den folgenden R-Kommandos:

Standardabweichung: sd(InsectSprays$count)
Varianz: var(InsectSprays$count)
Spannweite: range(InsectSprays$count)

Man erhält dadurch den folgenden Output:

Die Standardabweichung liegt bei 7.20. Das bedeutet, dass die Werte im Durchschnitt um ca. 7.20 vom Mittelwert der Datenreihe entfernt liegen. Die Varianz von 51.89 ist einfach die quadrierte Standardabweichung. Das Ergebnis des range-Befehls besagt, dass das Minimum der Daten 0 beträgt und das Maximum 26. Die Spannweite der Daten ist definiert als Maximum minus Minimum, hier also als 26-0=26.

Beachten Sie hierbei, dass die Standardabweichung das gängigste Maß für die Streuung einer Variable ist. Wir haben Ihnen hier zur Übung gezeigt, wie die Varianz und die Spannweite angeben. Wenn Sie aber eine empirische Arbeit wie z.B. eine Masterarbeit oder eine Doktorarbeit schreiben, dann müssen Sie in der Regel nur die Standardabweichung angeben, und keine Varianz oder Spannweite.

Darüber hinaus existieren noch weitere Streuungskennzahlen, die jedoch nur sehr selten verwendet werden. Beispiele hierfür sind der MAD oder die mittlere Abweichung vom Median. Alle hier genannten Streuungskennzahlen sind nur auf metrisch Skalierte Variablen anwendbar. Für kategoriell skalierte Variablen existieren zwar Streuungskennzahlen, diese sind jedoch eher exotisch und werden in der Praxis kaum angewandt. Für ordinal skalierte Variablen kann in bestimmten Fällen die Interquartilsspanne als Streuungskennzahl sinnvoll sein.

Quantile in R berechnen

Quantile sind ebenfalls weitverbreitete Kennzahlen zur Beschreibung einer Variablen. Das 25%-Quantil z.B. ist der Wert, der größer ist als die 25% kleinsten Werte der Datenreihe. Dementsprechend ist das 90%-Quantil derjenige Wert, der größer ist als 90% der kleinsten Werten der Stichprobe.

Wir berechnen daher nun beispielhaft das 25%- und das 90%-Quantil der Variable count und nutzen dazu die folgenden Befehle:

25%-Quantil: quantile(InsectSprays$count,0.25)
90%-Quantil: quantile(InsectSprays$count,0.90)

Damit erhält man folgendes Ergebnis:

Dieses Ergebnis bedeutet, dass 25% der Werte kleiner oder gleich 3 sind. Ebenso sind 90% der Werte kleiner oder gleich 20.

Beachten Sie: Das 0%-Quantil ist immer das Minimum der Daten, und das 100%-Quantil ist immer das Maximum.

Quantile werden manchmal auch als Perzentile oder Fraktile bezeichnet.

Schiefe und Kurtosis in R

Weitere deskriptive Kennzahlen sind die Schiefe und Kurtosis. Die Schiefe gibt an, wie symmetrisch eine Variable ist. Die Kurtosis gibt an, ob die Variable eher steilgipflig oder flach ist.

Wie demonstrieren die Funktionsweise der Kennzahl Schiefe zunächst anhand einer Graphik. In nachfolgender Abbildung ist je eine symmetrische, eine rechtsschiefe und eine linksschiefe Verteilung dargestellt:

Die Kennzahl Schiefe ist wird Null bei einer perfekt symmetrischen Verteilung, größer als Null bei einer rechtsschiefen und kleiner als Null bei einer linksschiefen Verteilung.

Berechnen wir nun mit R die Schiefe der Datenreihe counts aus dem Datensatz InsectSprays. Hierzu installieren wir ein R-Package, nämlich das Paket moments. Um das Paket in R zu installieren, geben Sie die folgenden zwei Befehle ein:

install.packages("moments")

library(moments)

Sie haben das Paket nun installiert. Berechnen Sie nun in R die Schiefe der Variable InsectSprays$count. Verwenden Sie hierzu den folgenden Befehl:

skewness(InsectSprays$count)

Als Ergebnis erhalten Sie einen Wert von 0.5709. Die Schiefe ist positiv, ist aber kleiner als 1. Somit kann man sagen, dass die Variable rechtsschief ist, wobei die Rechtsschiefe aber nur schwach ausgeprägt ist.

Eine weitere bekannte Kennzahl ist die Kurtosis. Um eine Vorstellung von der Bedeutung der Kurtosis zu erhalten, betrachten Sie nachfolgende Graphik.

In dieser Graphik sind eine Normalverteilung, sowie eine steilgipflige (aka leptokurtische) und eine flachgipflige (aka platykurtische) Verteilung dargestellt.

Die steilgipflige (leptokurtische) Verteilung ist in der Mitte spitzer als die Normalverteilung und an den Rändern breiter. Bei der flachgipfligen (platykurtischen) Verteilung ist es anders herum. Die Kurtosis ist nun eine Kennzahl, mit der untersucht wird, ob eine Verteilung im Vergleich zur Normalverteilung flachgipflig oder steilgipflig ist:

Für eine Normalverteilung nimmt die Kurtosis genau den Wert 3 an.
Eine steilgipflige Verteilung hat eine Kurtosis, die größer als 3 ist.
Für eine flachgipflige Verteilung ist die Kurtosis kleiner als 3.
Beachten Sie: Anstatt der Kurtosis wird häufig auch der sogenannte Exzess verwendet. Dies ist eine weitere Kennzahl, die definiert ist durch die Formel: Exzess = Kurtosis - 3.
Der Exzess ist somit größer als Null, wenn die Verteilung steilgipflig ist, und kleiner als Null bei einer flachgipfligen Verteilung.

Benötigen Sie eine Statistik-Beratung für Mediziner oder Statistik-Beratung für Studenten? Informieren Sie sich auf unserer Homepage oder nehmen Sie Kontakt zu uns auf.