Histogramme erstellen mit R

Ein Histogramm ist eine Graphik zur Darstellung der Verteilung einer Variable. Ein Histogramm können Sie z.B. immer dann erstellen, wenn Sie sich eine Variable "einfach mal ansehen" möchten, ohne dafür gleich eine statistische Beratung konsultieren zu müssen.

 

Um ein Histogramm zu erstellen, benötigen wir zunächst ein paar Daten. Wir simulieren uns daher 500 Zahlen aus einer Standardnormalverteilung. Hierzu geben Sie den folgenden Befehl in die R-Konsole ein:

 

x <- rnorm(500)

 

Wir erstellen nun zunächst ein einfaches Histogramm, welches wir danach etwas ausschmücken. 

 

Erstellung eines einfachen Histogrammes

Das grundlegende Histogramm wird mittels des R-Befehls hist() erstellt, der auf die Datenreihe x angewandt wird. Hierdurch erhält man die folgende Graphik:

R Histogramm erstellen

 

hist(x) 

 

Man erkennt, dass das Histogramm in seiner Basis-Version etwas schlicht und farblos erscheint. Wir möchten Ihnen nun verschiedene Möglichkeiten zur Verschönerung eine solchen Histo-grammes präsentieren, wie z.B. mit individuellen Achsenbeschriftungen und einem Titel.

 

Achsenbeschriftungen, Titel  und Rahmen in R

Im ersten Schritt möchten wir die Überschrift sowie die Achsenbeschriftungen ändern und einen Kasten um die Graphik zeichnen. Die Befehle finden Sie im folgenden links, die erzeugte Graphik rechts.

 

R Achsnebeschriftung Histogramm Häufigkeiten

hist(x,main="Beispiel Histogramm",

xlab="Zufallszahlen",ylab="Anzahl")

box()

 

Der Parameter main erzeugt die Über-schrift des Plots und mit den Parametern xlab und ylab die Beschriftung der beiden Achsen. Die Beschriftungen sind frei wählbar. Um den Kasten zu erstellen, muss nach der Erstellung des Histo-grammes der Befehl box() eingegeben werden. Als weitere Verbesserungsmöglichkeiten ändern wir nun die Farbe und die Breite der Intervalle auf der x-Achse.

 

Farbe und Anzahl der Intervalle für Histogramme in R

Lassen Sie uns nun ein Histogramm erstellen, dass eine blaue Farbe hat und darüberhinaus eine feinere Aufteilung der x-Achse in Intervalle aufweist. Wir wählen hier eine Anzahl von 30 Intervallen. Wir nehmen als Vorlage den Code des letzten Beispiels und erweitern ihn folgendermaßen:

 

R Histogramm Klassen Klassengrenzen

hist(x,main="Beispiel Histogramm",

xlab="Zufallszahlen",ylab="Anzahl",

col="deepskyblue",

breaks=seq(-3,3,length=30))

box()

 

Die Farbe des Histogrammes wird durch den Parameter col festgelegt, wobei hier die Farbe deepskyblue gewählt wurde. Die Anzahl der Intervalle haben wir mit der Option breaks festgelegt. Das Argument seq(-3,3,length=30) legt fest, dass die Intervalle bei -3 starten, bei 3 enden bei Insgesamt 30 Schritten.

 

Histogramm mit Normalverteilungskurve in R

Als letztes erstellen wir ein Histogramm mit eingezeichneter Dichtefunktion einer Normalverteilung. Eine solche Graphik wir häufig gezeichnet um zu überprüfen ob Daten mit der Normalverteilung übereinstimmen. Wir geben zu diesem Zweck den folgenden Code ein:

R Normalverteilung zeichnen Histogramm mit Dichte

hist(x,main="Beispiel Histogramm",

xlab="Zufallszahlen",

ylab="Wahrscheinlichkeitsdichte",

col="deepskyblue",

breaks=seq(-3,3,length=30), 

freq=FALSE)

 

m <- mean(x)

s <-  sd(x)

curve(dnorm(x,m,s),add=TRUE,lwd=3)

box()

 

Beachten Sie zunächst, dass bei Einzeichnung der Dichtfunktion die Option freq=FALSE in der Funktion hist() gewählt werden muss. Dadurch werden auf der y-Achse des Histogrammes nicht mehr die Häufigkeiten, sondern die Dichte abgebildet.

Weiterhin werden mit mean() und sd() der Mittelwert und die Standardabweichung berechnet. Diese werden dann als Parameter der Wahrscheinlichkeitsdichte verwendet, welche mit der Funktion curve() gezeichnet wird. Als Argumente muss die gewünschte Funktion, also dnorm() angegeben werden.

 

Benötigen Sie weitere Informationen über R? Informieren Sie sich auf unserer Startseite über unser Angebot der statistischen Beratung.