Deskriptive Statistik in Stata

Die deskriptive Statistik ist die Grundlage der meisten Datenanalysen und dient dazu, das vorliegende Datenmaterial zu beschreiben und auf erste Trends bzw. Ergebnisse hin zu untersuchen.

In diesem Artikel beschäftigen wir uns mit deskriptiven Statistik für metrische Variablen. Für metrische Variablen sind vor allem zwei Arten von deskriptiven Kennzahlen von Interesse, nämlich Lagemaße und Streuungsmaße.

Lagemaße sind Kennzahlen, die für eine Variable anzeigen wo ungefähr die Mitte der Daten liegt. Die bekanntesten Lagemaße sind das arithmetische Mittel und der Median.
Streuungsmaße geben an, wie groß die Streuung einer Variable ist: Wenn die Werte der Variable alle nahe beieinander liegen, nehmen Streuungsmaße einen kleinen Wert an.
Wenn dagegen die Werte weit voneinander weg liegen, dann nehmen Streuungsmaß große Werte an
Die bekanntesten Streuungsmaße sind die Standardabweichung und die Varianz.
Es existieren jedoch auch andere Arten von deskriptiven Kennzahlen, die in keine der beiden Kategorien fallen, z.B. die Schiefe oder die Kurtosis.

Zur Deskription metrischer Variablen ist es Standard, eine Tabelle mit dem arithmetischen Mittel, der Standardabweichung, dem Minimum, dem Maximum sowie der Anzahl der Beobachtungen zu erstellen.

Wir möchten nun mit Stata eine solche Tabelle erzeugen. Hierzu verwenden wir den Beispieldatensatz bplong. Dieser Datensatz ist ein in Stata vorinstallierter Beispieldatensatz und enthält Blutdruckmessungen von 120 Patienten. Laden Sie den Datensatz, indem Sie den folgenden Befehl eingeben:

sysuse bplong, clear

Sie können sich den Datensatz im Dateneditor ansehen. Geben Sie hierzu das Kommando edit ein. Der Blutdruck ist im Datensatz unter der Bezeichnung bp enthalten.

Wir möchten nun mit Stata ein paar grundlegende deskriptive Statistiken für den Blutdruck berechnen. Hierzu geben wir den folgenden Befehl ein:

summarize bp

Sie erhalten sodann als Output die folgende Tabelle mit deskriptiven Statistiken:

In der Deskriptivtabelle sind folgende Informationen über den Blutdruck erkennbar:

Die Spalte Obs enthält die Anzahl der untersuchten Beobachtungen. Diese beträgt hier 240, somit liegen in diesem Datensatz 240 Blutdruckmessungen vor.
In der Spalte Mean ist das arithmetische Mittel (auch bekannt als Mittelwert oder Durchschnitt) dargestellt. Im Durchschnitt liegt hier der Blutdruck also bei 153.9.
Die Standardabweichung (Std. Dev.) liegt bei 13.08. Das bedeutet, dass die Blutdruckwerte im Durchschnitt um ca. 13.08 vom Mittelwert abweichen.
Das Minimum des Blutdrucks liegt bei 125 und das Maximum bei 185. Daraus lässt sich die Spannweite berechnen: Sie ergibt sich zu 185 - 125 = 70.

Neben diesen grundlegenden deskriptiven Kennzahlen können Sie in Stata auch zahlreiche weitere deskriptive Statistiken berechnen.

Fortgeschrittene deskriptive Statistiken in Stata

Fortgeschittene deskriptive Statistiken in Stata lassen sich ebenfalls sehr einfach berechnen. Geben Sie hierzu den folgenden Befehl ein:

summarize bp, detail

Für fortgeschrittene deskriptive Statistiken verwenden wir also ebenfalls das Kommando summarize, wobei zusätzlich noch das Argument ,detail

angegeben werden muss. Sie erhalten sodann den folgenden Output:

Dieser Output enthält neben den bereits besprochenen Kennzahlen weitere interessante deskriptive Statistiken.

Den Median finden Sie links in der Mitte der Tabelle, dort wo 50% steht. Der Median beträgt hier 152. Somit sind 50% aller Blutdruckwerte nicht größer als 152.
In der linken Spalte Percentiles werden weiterhin Quantile zu verschiedene anderen Prozentwerten angezeigt. Das 5%-Quantil beträgt z.B. 134. Somit sind 5% der Blutdruckwerte nicht größer als 134.
Weiterhin werden unter Smallest und Largest die 4 kleinsten und größten Werte dargestellt. Die 4 kleinsten Werte liegen z.B. bei 125, 126, 127, 131.
Weiterhin wird rechts unten die Varianz angezeigt. Die Varianz ist einfach nur die quadrierte Standardabweichung und ist in der Regel nicht von hohem Interesse.
Auch rechts unten finden Sie unter Skewness die Schiefe. Eine positive Schiefe bedeutet, dass die Variable rechtschief ist, während eine negative Schiefe kennzeichnet dass die Variable linksschief ist.
Der hier berechnete Wert der Schiefe liegt bei 0.30, was bedeutet dass die Variable eine leicht rechtsschiefe Verteilung aufweist.