Multiple lineare Regression mit Stata

In diesem Artikel finden Sie ein Beispiel zur Durchführung einer 

einer multiplen linearen Regressionsanalyse mit Stata und der Interpretation des Outputs. Wir verwenden den Datensatz "lifeexp". Dieser Datensatz ist einer der mit Stata vorinstallierten Beispieldatensätze. Laden Sie zunächst den Datensatz, indem Sie den folgenden Befehl eingeben:

 

sysuse lifeexp

 

Der Datensatz befindet sich nun im Arbeitsspreicher. Sie können sich den Datensatz ansehen, indem Sie den Befehl edit in die Kommandozeile eingeben. Der Datensatz ist derart aufgebaut, dass jede Zeile Daten zu einem Land enthält. Wir interessieren uns in dieser Analyse für die Variablen lexp, gnppc und safewater:

  • lexp bezeichnet die durchschnittliche Lebenserwartung eines Landes
  • gnppc bezeichnet das Bruttoinlandsprodukt pro Kopf
  • safewater bezeichnet den Prozentsatz der Bevölkerung des Landes, der Zugang zu sauberem Trinkwasser hat.

Wir möchten nun untersuchen, ob die Lebenswartung vom Bruttoinlandsprodukt und dem Zugang zu sauberem Trinkwasser abhängt und berechnen hierzu mit Stata eine multiple lineare Regression. Die abhängige Variable ist die lexp, als unabhängige verwenden wir pnppc und safewater. Um die Regression zu berechnen geben Sie folgenden Befehl ein:

 

reg lexp safewater gnppc

 

Nach Eingabe des Befehls erhalten Sie einen Regressions-Output. Die Interpretation dieses Outputs ist elementarer Bestandteil einer statistischen Beratung und wird daher im Folgenden erläutert.

 

Stata Regression Output Interpretation

Wenn Sie den vorigen Befehl in Stata eingegeben haben, dann sollten Sie jetzt den folgenden Regressionsoutput vor sich haben:

Betrachten Sie nun zunächst den Block rechts oben und folgen Sie den folgenden Ausführungen zur Interpretation des Outputs: 

 

Interpretation des F-Werts in Stata

Der Wert F(2,34)=39.94 ist der F-Wert. Mit diesem Wert wird untersucht, ob das Regressionsmodell eine signifikante Erklärungsgüte aufweist. Der F-Wert an sich ist nicht interpretierbar, man verwendet stattdessen den zum F-Wert gehörigen p-Wert:

  • Den p-Wert finden Sie rechts oben bei Prob > F = 0.0000. Der p-Wert beträgt hier also Null.
  • Wenn der p-Wert kleiner ist als 0.05, dann hat das Modell eine signifikante Erklärungsgüte, d.h. die Regression ist ok. 

Die Signifikanz des F-Werts ist eine Art Mindestvoraussetzung an ein Regressionsmodell: Wenn der p-Wert des F-Werts größer ist als 0.05, dann "taugt die Regression nichts". Wenn der p-Wert kleiner als 0.05 ist, dann ist das Regressionsmodell ok.

 

R-Quadrat und adjustiertes R-Quadrat

Das R-Quadrat ist ebenfalls wichtig. Im Output rechts oben erhalten wir das normale R-Quadrat (R-squared=0.6961) und das adjustierte R-Quadrat (Adj R-squared=0.6792). Das adjustierte R-Quadrat muss immer dann benutzt werden, wenn die Regression mehr als eine unabhängige Variable hat. Das normale R-Quadrat ist nur geeignet für Regressionen mit nur einer unabhängigen Variable. In obiger Regression haben wir 2 unabhängige Variablen, also interpretieren wir das adjustierte.

  • Der Wert Adj R-squared=0.6792 besagt, dass mit der Regression 67.92% der Streuung der abhängigen Variable erklärt werden kann.
  • Das adjustierte R-Quadrat kann Werte zwischen 0 und 1 annehmen, wobei das Modell umso besser ist je näher der Wert an 1 ist.
  • Der Wert 1 würde bedeuten, dass die abhängige Variable zu 100% durch die Regression erklärt werden kann.

Es existiert jedoch kein allgemeiner Wert, ab dem das adjustierte R-Quadrat als gut angesehen werden kann. Ein Wert größer als 0.1 ist aber meistens ok, und der hier erzielte Wert von 0.6792 ist als sehr gut anzusehen.

 

Regressionskoeffizienten und p-Werte

Mit dem rechten oberen Block sind Sie nun fertig. Machen wir nun weiter mit den Regressionskoeffizienten im unteren Block. Hier müssen Sie für jede der unabhängigen Variablen den Regressionskoeffizienten (In der Tabelle unter Coef.) und den p-Wert (In der Tabelle unter P>|t|) betrachten:

  • Sehen wir uns nun zunächst den p-Wert der Variable safewater an. Dieser beträgt p=0.000. Da der p-Wert kleiner ist als 0.05, wissen wir dass die Variable safewater einen signifikanten Einfluss auf die abhängige Variable hat.
  • Der Koeffizient der Variable safewater beträgt 0.1887. Dieser Wert besagt, dass bei einem Anstieg der Variable safewater um eine Einheit die abhängige Variable um durchschnittlich 0.1887 ansteigt. Inhaltlich bedeutet dieses Ergebnis das Folgende: Wenn der Anteil der Bevölkerung mit Zugang zu sauberem Trinkwasser um einen Prozentpunkt ansteigt, dann erhöht sich die Lebenserwartung um 0.1887 Jahre.                                

Betrachten wir nun noch die Variable gnppc (das Bruttoinlandsprodukt pro Kopf). Der p-Wert für diese Variable beträgt p=0.089. Dieser Wert ist größer als 0.05, das bedeutet dass gnppc keinen Einfluss auf die Lebenserwartung hat. In diesem Fall brauchen Sie den Regressionskoeffizienten nicht weiter zu interpretieren.

 

Sie sind nun fertig. Die restlichen Kennzahlen des Outputs brauchen Sie nicht zu beachten.

 

Kommentar schreiben

Kommentare: 19
  • #1

    Eva (Donnerstag, 02 März 2017 16:09)

    Mein Leben wurde gerade gerettet!!!
    Wenn ich mir diesen verständlichen Text anschaue frage ich mich, warum meine "hoch kompetenten Dozenten" an der Uni keine Erklärung zum Stata-Output abgeben konnten...

  • #2

    Angela (Mittwoch, 22 März 2017 20:27)

    Dankeschön!! Das hilft mir gerade sehr bei meiner Statistik-Hausarbeit!

  • #3

    Emilia (Mittwoch, 31 Mai 2017 16:48)

    Vielen Dank!
    Super hilfreich!!

  • #4

    Lena (Freitag, 02 Juni 2017 08:28)

    Kurze und einfache Erklärung, die einem schnell weiterhilft! Sehr hilfreich. :-)

  • #5

    Chris (Mittwoch, 28 Juni 2017 11:16)

    Danke für die Interpretation. Alles verständlich und hilfreich

  • #6

    Sebastian (Mittwoch, 22 November 2017 20:00)

    Super Erklärung! Hilft mir bei meiner Bachelorarbeit, danke

  • #7

    Julia (Sonntag, 10 Dezember 2017 12:05)

    Super, vielen Dank!
    Gibt es auch eine Interpretationshilfe für die logistische Regression?

  • #8

    Michèle (Mittwoch, 17 Januar 2018 14:48)

    Danke schön Sue

  • #9

    Christian (Montag, 26 März 2018 01:20)

    Absolut super erklärt, hilft mir weiter für meine Prüfung. Vielen Dank!!!!!!

  • #10

    Mari (Dienstag, 29 Mai 2018 10:48)

    Sehr gut und verständlich erklärt, wenn jetzt auch der Wert Root MSE so erklärt werden würde, wäre es perfekt!

  • #11

    Eileen (Donnerstag, 12 Juli 2018 13:35)

    Super erklärt, vielen Dank

  • #12

    Hans (Sonntag, 15 Juli 2018 16:51)

    Super!

    Was ist die Interpretation vom t-test ?

  • #13

    charity (Dienstag, 18 September 2018 22:45)

    Super,Daum hoch reicht hier nicht
    binbegeistert

  • #14

    Nina (Mittwoch, 12 Dezember 2018 22:25)

    Super vielen Dank für diesen verständlichen Eintrag. Eine Frage hätte ich allerdings: Wenn die p-Werte der Coef. in meiner Regressionsanalyse alle unter meiner Irrtumswahrscheinlichkeit liegen und auch der p-Wert des Modells, kann ich dann die Nullhypothese ablehnen?

  • #15

    Gamze (Montag, 21 Januar 2019 21:33)

    Das korr. R² darf doch nicht interpretiert werden, die Zahl sagt nur im Vergleich aus welches, Modell besser ist.

  • #16

    Steph (Mittwoch, 23 Januar 2019 23:37)

    Wirklich sie haben alle mein Respekt für diese einfach und sehr erklärte Abschnitt

  • #17

    Andi (Montag, 04 Februar 2019 20:58)

    Absolut super erklärt. Das hilft mir bei meiner Stata-Arbeiten sehr weiter. Herzlichen Dank!

  • #18

    Lari (Dienstag, 19 März 2019 14:00)

    Hallo,
    ich habe das Problem, dass bei meiner multivariaten Analyse nur R^2 und nicht das adjustierte R^2 angezeigt wird. Kann mir hier jemand weiterhelfen?

    Herzlichen Dank !

  • #19

    Ayse (Mittwoch, 20 März 2019 15:04)

    Hello :) hättest du sowas auch für die Interpretation von Panelregressionen auf Mehrebenenmodelle? (mit xtmixed durchgeführt)