Multiple lineare Regression mit Stata

In diesem Artikel finden Sie ein Beispiel zur Durchführung einer 

einer multiplen linearen Regressionsanalyse mit Stata und der Interpretation des Outputs. Wir verwenden den Datensatz "lifeexp". Dieser Datensatz ist einer der mit Stata vorinstallierten Beispieldatensätze. Laden Sie zunächst den Datensatz, indem Sie den folgenden Befehl eingeben:

 

sysuse lifeexp

 

Der Datensatz befindet sich nun im Arbeitsspreicher. Sie können sich den Datensatz ansehen, indem Sie den Befehl edit in die Kommandozeile eingeben. Der Datensatz ist derart aufgebaut, dass jede Zeile Daten zu einem Land enthält. Wir interessieren uns in dieser Analyse für die Variablen lexp, gnppc und safewater.

  • lexp bezeichnet die durchschnittliche Lebenserwartung eines Landes
  • gnppc bezeichnet das Bruttoinlandsprodukt pro Kopf
  • safewater bezeichnet den Prozentsatz der Bevölkerung des Landes, der Zugang zu sauberem Trinkwasser hat.

Wir möchten nun untersuchen, ob die Lebenswartung vom Bruttoinlandsprodukt und dem Zugang zu sauberem Trinkwasser abhängt und berechnen hierzu mit Stata eine multiple lineare Regression. Die abhängige Variable ist die lexp, als unabhängige verwenden wir pnppc und safewater. Um die Regression zu berechnen geben Sie folgenden Befehl ein:

 

reg lexp safewater gnppc

 

Nach Eingabe des Befehls erhalten Sie einen Regressions-Output. Die Interpretation dieses Outputs ist elementarer Bestandteil einer statistischen Beratung und wird daher im Folgenden erläutert.

 

Stata Regression Output Interpretation

Wenn Sie den vorigen Befehl in Stata eingegeben haben, dann sollten Sie jetzt den folgenden Regressionsoutput vor sich haben:

Betrachten Sie nun zunächst den Block rechts oben und folgen Sie den folgenden Ausführungen zur Interpretation des Outputs: 

 

Interpretation von F- Wert und adjustiertem R-Quadrat

Der Wert F(2,34)=39.94 ist der F-Wert. Mit diesem Wert wird untersucht, ob das Regressionsmodell eine signifikante Erklärungsgüte aufweist. Der F-Wert an sich ist nicht interpretierbar, man verwendet stattdessen den zum F-Wert gehörigen p-Wert. Den p-Wert finden Sie rechts oben bei Prob > F = 0.0000. Der p-Wert beträgt hier also Null. Wenn der p-Wert kleiner ist als 0.05, dann hat das Modell eine signifikante Erklärungsgüte, d.h. die Regression ist ok. 

 

Die Signifikanz des F-Werts ist eine Art Mindestvoraussetzung an ein Regressionsmodell: Wenn der p-Wert des F-Werts größer ist als 0.05, dann "taugt die Regression nichts". Wenn der p-Wert kleiner als 0.05 ist, dann ist das Regressionsmodell ok.

 

Als nächstes betrachten wir das das R-Quadrat. Im Output rechts oben erhalten wir das normale R-Quadrat (R-squared=0.6961) und das adjustierte R-Quadrat (Adj R-squared=0.6792). Das adjustierte R-Quadrat muss immer dann benutzt werden, wenn die Regression mehr als eine unabhängige Variable hat. Das normale R-Quadrat ist nur geeignet für Regressionen mit nur einer unabhängigen Variable. In obiger Regression haben wir 2 unabhängige Variablen, also interpretieren wir das adjustierte.

 

Der Wert Adj R-squared=0.6792 besagt, dass mit der Regression 67.92% der Streuung der abhängigen Variable erklärt werden kann. Das adjustierte R-Quadrat kann Werte zwischen 0 und 1 annehmen, wobei das Modell umso besser ist je näher der Wert an 1 ist. Der Wert 1 würde bedeuten, dass die abhängige Variable zu 100% durch die Regression erklärt werden kann.

 

Es existiert jedoch kein allgemeiner Wert, ab dem das adjustierte R-Quadrat als gut angesehen werden kann. Ein Wert größer als 0.1 ist aber meistens ok, und der hier erzielte Wert von 0.6792 ist als sehr gut anzusehen.

 

Regressionskoeffizienten und p-Werte

Mit dem rechten oberen Block sind Sie nun fertig. Machen wir nun weiter mit den Regressionskoeffizienten im unteren Block. Hier müssen Sie für jede der unabhängigen Variablen den Regressionskoeffizienten (In der Tabelle unter Coef.) und den p-Wert (In der Tabelle unter P>|t|) betrachten:

 

Sehen wir uns nun zunächst den p-Wert der Variable safewater an. Dieser beträgt p=0.000. Da der p-Wert kleiner ist als 0.05, wissen wir dass die Variable safewater einen signifikanten Einfluss auf die abhängige Variable hat.

 

Der Koeffizient der Variable safewater beträgt 0.1887. Dieser Wert besagt, dass bei einem Anstieg der Variable safewater um eine Einheit die abhängige Variable um durchschnittlich 0.1887 ansteigt. Inhaltlich bedeutet dieses Ergebnis das Folgende: Wenn der Anteil der Bevölkerung mit Zugang zu sauberem Trinkwasser um einen Prozentpunkt ansteigt, dann erhöht sich die Lebenserwartung um 0.1887 Jahre.                                

 

Betrachten wir nun noch die Variable gnppc (das Bruttoinlandsprodukt pro Kopf). Der p-Wert für diese Variable beträgt p=0.089. Dieser Wert ist größer als 0.05, das bedeutet dass gnppc keinen Einfluss auf die Lebenserwartung hat. In diesem Fall brauchen Sie den Regressionskoeffizienten nicht weiter zu interpretieren.

 

Sie sind nun fertig. Die restlichen Kennzahlen des Outputs brauchen Sie nicht zu beachten.

 

Kommentar schreiben

Kommentare: 54
  • #1

    Eva (Donnerstag, 02 März 2017 16:09)

    Mein Leben wurde gerade gerettet!!!
    Wenn ich mir diesen verständlichen Text anschaue frage ich mich, warum meine "hoch kompetenten Dozenten" an der Uni keine Erklärung zum Stata-Output abgeben konnten...

  • #2

    Angela (Mittwoch, 22 März 2017 20:27)

    Dankeschön!! Das hilft mir gerade sehr bei meiner Statistik-Hausarbeit!

  • #3

    Emilia (Mittwoch, 31 Mai 2017 16:48)

    Vielen Dank!
    Super hilfreich!!

  • #4

    Lena (Freitag, 02 Juni 2017 08:28)

    Kurze und einfache Erklärung, die einem schnell weiterhilft! Sehr hilfreich. :-)

  • #5

    Chris (Mittwoch, 28 Juni 2017 11:16)

    Danke für die Interpretation. Alles verständlich und hilfreich

  • #6

    Sebastian (Mittwoch, 22 November 2017 20:00)

    Super Erklärung! Hilft mir bei meiner Bachelorarbeit, danke

  • #7

    Julia (Sonntag, 10 Dezember 2017 12:05)

    Super, vielen Dank!
    Gibt es auch eine Interpretationshilfe für die logistische Regression?

  • #8

    Michèle (Mittwoch, 17 Januar 2018 14:48)

    Danke schön Sue

  • #9

    Christian (Montag, 26 März 2018 01:20)

    Absolut super erklärt, hilft mir weiter für meine Prüfung. Vielen Dank!!!!!!

  • #10

    Mari (Dienstag, 29 Mai 2018 10:48)

    Sehr gut und verständlich erklärt, wenn jetzt auch der Wert Root MSE so erklärt werden würde, wäre es perfekt!

  • #11

    Eileen (Donnerstag, 12 Juli 2018 13:35)

    Super erklärt, vielen Dank

  • #12

    Hans (Sonntag, 15 Juli 2018 16:51)

    Super!

    Was ist die Interpretation vom t-test ?

  • #13

    charity (Dienstag, 18 September 2018 22:45)

    Super,Daum hoch reicht hier nicht
    binbegeistert

  • #14

    Nina (Mittwoch, 12 Dezember 2018 22:25)

    Super vielen Dank für diesen verständlichen Eintrag. Eine Frage hätte ich allerdings: Wenn die p-Werte der Coef. in meiner Regressionsanalyse alle unter meiner Irrtumswahrscheinlichkeit liegen und auch der p-Wert des Modells, kann ich dann die Nullhypothese ablehnen?

  • #15

    Gamze (Montag, 21 Januar 2019 21:33)

    Das korr. R² darf doch nicht interpretiert werden, die Zahl sagt nur im Vergleich aus welches, Modell besser ist.

  • #16

    Steph (Mittwoch, 23 Januar 2019 23:37)

    Wirklich sie haben alle mein Respekt für diese einfach und sehr erklärte Abschnitt

  • #17

    Andi (Montag, 04 Februar 2019 20:58)

    Absolut super erklärt. Das hilft mir bei meiner Stata-Arbeiten sehr weiter. Herzlichen Dank!

  • #18

    Lari (Dienstag, 19 März 2019 14:00)

    Hallo,
    ich habe das Problem, dass bei meiner multivariaten Analyse nur R^2 und nicht das adjustierte R^2 angezeigt wird. Kann mir hier jemand weiterhelfen?

    Herzlichen Dank !

  • #19

    Ayse (Mittwoch, 20 März 2019 15:04)

    Hello :) hättest du sowas auch für die Interpretation von Panelregressionen auf Mehrebenenmodelle? (mit xtmixed durchgeführt)

  • #20

    Tilman Denkler (Donnerstag, 09 Mai 2019 16:52)

    Super, verständlich, hilfreich. Danke!!

  • #21

    Dima (Dienstag, 06 August 2019 11:07)

    supi erklärung, danke!

  • #22

    Hannah (Mittwoch, 02 Oktober 2019 07:54)

    Vielen vielen Dank! Für den Staat-Output gibt es keine bessere Erklärung!

  • #23

    Caro (Samstag, 18 Januar 2020 22:06)

    tausend Dank!! super Erklärung

  • #24

    Til (Donnerstag, 30 Januar 2020 17:22)

    SICKKKKK!!!!!!!!11!1!!!

  • #25

    PENIS (Donnerstag, 30 Januar 2020 17:24)

    PENIS

  • #26

    Stepan (Mittwoch, 18 März 2020 23:04)

    Ehre

  • #27

    Franziska (Mittwoch, 08 April 2020 20:31)

    Hallo, gibt es so eine Erklärung auch für die ANOVA in Stata? Suche leider vergeblich danach und bräuchte dringend Hilfe!!!

    Vielen Dank schonmal :)

  • #28

    Saro (Freitag, 05 Juni 2020 19:04)

    Vielen Dank für diese tolle Erklärung!
    Sie haben mir wirklich die komplexe in wenigen wichtigen Worten simpel erklärt!!
    Echt super!

  • #29

    Julia (Samstag, 01 August 2020 13:17)

    Das ist wohl der beste Artikel, den ich je zu einer Regressionsinterpretation in STATA gelesen habe. Vielen Dank!

  • #30

    Samuel Mena Vaz (Dienstag, 18 August 2020 13:11)

    Ehre Bruder! Beste Erklärung!

  • #31

    Oskar (Sonntag, 22 November 2020 00:02)

    Super tolle Erklärung! Sie habe mir sehr viel geholfen, vielen vielen Dank!

  • #32

    Ladina (Freitag, 04 Dezember 2020 21:14)

    Tausend dank!!

  • #33

    Alexandra AK (Samstag, 13 Februar 2021 18:15)

    Vielen Dank für diesen Beitrag sehr hilfreich als zusätzliche Ergänzung für meine Aufgabenbearbeitung für die Uni! LG

  • #34

    Alex (Freitag, 19 März 2021 18:13)

    Vielen Dank eine echt super einfache Erklärung!

  • #35

    Simon (Samstag, 27 März 2021 14:23)

    Mega Erklärung! Danke mein Lieber

  • #36

    Sarah (Donnerstag, 22 April 2021 19:20)

    Sehr hilfreicher Beitrag!! Vielen Dank!!! :=)

  • #37

    Gigi (Donnerstag, 08 Juli 2021 21:45)

    Super erklärt, vielen Dank!

  • #38

    Naschi176 (Dienstag, 13 Juli 2021 12:54)

    Vielen Dank für deine Interpretationshilfe! Jedoch für jeden der sich das durchliest, adj. R2 sagt NICHTS über die erklärte Varianz aus, nur über darüber,wie gut die Modellgüte ist! R2 sagt als einziges, wie viel % der Varianz durch die unabhängige(n) Variable(n) erklärt wird. adj. R2 berücksichtigt die Anzahl der unabhängigen Variablen und kann somit verschiedene Modelle miteinander verlgeichen.

  • #39

    Tini (Donnerstag, 05 August 2021 14:13)

    Gerade bei der Interpretation von Zahlen und der Frage "wann ist ein Wert ein guter Wert?" habe ich Schwierigkeiten gehabt.. nach dem Lesen deiner Erklärungen jetzt doch nicht. :) Besten Dank dafür!

  • #40

    Gustav Burg (Donnerstag, 02 Dezember 2021)

    Mega Erklärung, hat uns den Arsch gerettet

  • #41

    Oliver (Mittwoch, 16 Februar 2022 19:50)

    VIELEN VIELEN VIELEN DANK! Alles perfekt auf den Punkt gebracht.

  • #42

    CB (Dienstag, 12 April 2022 08:04)

    Mega, vielen Dank!

  • #43

    San (Dienstag, 03 Mai 2022 11:42)

    Vielen Dank auch von meiner Seite.
    Es ist sehr angenehm, dass Sie mit einfachen Worten einen so komplexen Zusammenhang beschreiben und dieser ENDLICH verständlich wird. Danke! Hilft mir bei der Bachelorarbeit.

  • #44

    Dennis (Dienstag, 21 Juni 2022 20:59)

    Vielen Dank!

  • #45

    Lea (Dienstag, 19 Juli 2022 17:43)

    Warum verändert sich der P-Wert wenn mehrere X-Variablen in das Modell aufgenommen werden? Spielt die Reihenfolge der Aufnahme der einzelnen X-Variablen eine Rolle?

  • #46

    Eric (Freitag, 22 Juli 2022 07:08)

    Ich möchte mich hier wie viele meiner Vorredner für diesen verständlichen und übersichtlich gestalteten Beitrag bedanken!

  • #47

    Belal (Donnerstag, 28 Juli 2022 21:01)

    Vielen Dank!

  • #48

    Felix Baumann (Dienstag, 02 August 2022 19:24)

    Halleluja. Vielen vielen lieben Dank!!

  • #49

    Ang (Freitag, 06 Januar 2023 16:38)

    wow! Vielen Dank! In wenigen Minuten alles verstanden!

  • #50

    A. (Mittwoch, 08 Februar 2023 20:00)

    Wow vielen Dank! Ich habs hier in 10min besser verstanden als in einem ganzen Semester Uni

  • #51

    Dominik (Donnerstag, 13 Juli 2023 09:30)

    Vielen vielen Dank für diesen Beitrag! Stunden mit YouTube Videos und Uni-Büchern verbracht, alles Mist.. der Beitrag ist super hilfreich und noch dazu verständlich und einfach erklärt. Danke!

  • #52

    Natalie (Samstag, 02 Dezember 2023 12:36)

    Ich habe noch eine Frage, wie interpretiere ich eine Unabhängige Variable im Output, die für beta aufgelistet ist? Also zum Beispiel die Variable: Wie zufrieden bin ich mit der Regierung?
    1 Ich stimme gar nicht zu, 2 Ich stimme eher nicht zu, 3 Stimme weder noch zu, usw….
    Und: Wie interpretiere ich eine zentrierte Variable?
    Zum Beispiel: Zentrierte Bildungsjahre (-14,29 - 15,71)?

  • #53

    Anna (Samstag, 06 Januar 2024 06:08)

    Das hat mir sehr sehr viel geholfen, sonst stolperte ich immer bei der Interpretierung!

    Sehr gut und einfach erklärt, Vielen Dank!

  • #54

    Alex (Freitag, 12 Januar 2024 17:43)

    Danke!!!!! :)