Dummy-Codierung in SPSS

Die Dummy-Codierung ist ein Thema, das häufig im Rahmen der Statistik-Beratung mit SPSS behandelt wird. Zunächst eine Anmerkung: Die Durchführung der Dummy-Codierung in SPSS ist leider etwas umständlich. Wir empfehlen Ihnen daher, sich für die Lektüre dieses Artikels eine Tasse Tee oder ein belegtes Brötchen zurechtzulegen.

 

Die Dummy-Codierung in SPSS müssen Sie immer dann anwenden, wenn Sie eine lineare Regressionsanalyse mit einer kategoriellen unabhängigen Variable berechnen möchten. Beachten Sie, dass diese Situation tatsächlich die einzige Situation ist in der Sie in SPSS eine Dummy-Codierung vornehmen müssen. In allen anderen Situationen die bei Datenanalysen mit SPSS auftreten ist keine Dummy-Kodierung notwendig. 

 

Wir demonstrieren Ihnen das Thema Dummy-Codierung in SPSS anhand eines Beispiels: Nehmen wir an, wir möchten untersuchen, welchen Einfluss die Art des Hochschulabschlusses auf das Einkommen hat. Hierzu haben wir 80 berufstätige Personen mit Hochschulabschluss nach Ihrem Jahreseinkommen und nach Ihrem Abschluss befragt. Es traten hierbei die drei Abschlüsse Bachelor, Master und Promotion auf. Die Art des Abschlusses ist eine kategorielle Variable, und muss daher Dummy-codiert werden um als unabhängige Variable einer Regression fungieren zu können.

 

Wie wird in SPSS eine Dummy-Codierung vorgenommen?

Zur Durchführung einer Dummy-Codierung in SPSS müssen Sie zunächst ermitteln, welche Zahlencodes für die einzelnen Ausprägungen der Variablen stehen. Wir nehmen hier an, dass folgende Zahlencodes vorliegen: 1 = "Bachelor", 2 = "Master" und 3 = "Promotion". Im Datensatz sieht dies folgendermaßen aus:

 

 

Um nun die Dummy-Codierung für die Variable Abschluss vorzunehmen, gehen Sie folgendermaßen vor:

  • Gehen Sie in das Menü Transformieren - > Variable berechnen. Geben Sie dann links oben bei Zielvariable den Namen der ersten Ausprägung ein.
  • Hier ist die erste Ausprägung "Bachelor", geben Sie in das Feld Zielvariable also das Wort Bachelor ein.
  • Tippen Sie nun rechts in das Feld Numerischer Ausdruck die folgende Berechnungsvorschrift ein: Abschluss = 1
  • Klicken Sie dann auf OK.

 Dieser Schritt ist in folgender Abbildung dargestellt:

 

 

Sie haben hierdurch nun eine Dummy-Variable für die Ausprägung "Bachelor" der Variable "Abschluss" erzeugt.

Sie können sich die neu erzeugte Variable im Datensatz ansehen. Öffnen Sie hierzu die Datenansicht und scrollen Sie bis ganz nach rechts. Sie finden dort eine neue Variable mit der Bezeichnung "Bachelor". Diese Variable enthält den Wert 1 bei allen Personen, die einen Bachelor haben und den Wert 0 bei allen Personen, die einen anderen Abschluss (Also Master oder Promotion) haben.

 

Fahren Sie nun mit der Dummy-Codierung fort, indem Sie eine Dummy-Variable für die Ausprägung "Master" erstellen. Gehen Sie hierbei folgendermaßen vor:

  • Gehen Sie in das Menü Transformieren - > Variable berechnen. Geben Sie dann links oben bei Zielvariable den Namen der zweiten Ausprägung ein.
  • Hier ist die zweite Ausprägung "Master", geben Sie in das Feld Zielvariable also das Wort Master ein.
  • Tippen Sie nun rechts in das Feld Numerischer Ausdruck die folgende Berechnungsvorschrift ein: Abschluss = 2
  • Klicken Sie dann auf OK.

Dieser Schritt ist in folgender Abbildung dargestellt:

 

 

Sie haben nun die Dummy-Variable für die Ausprägung "Master" erzeugt. Damit sind nun mit der Dummy-Codierung fertig.

 

Für die dritte Ausprägung, also "Promotion" brauchen Sie keine Dummy-Variable zu erstellen. Bei einer Dummy-Codierung muss stets eine Kategorie gewählt werden, für die keine Dummy-Variable erstellt wird. Diese Ausprägung wird als Referenzkategorie bezeichnet. In unserem Beispiel ist also "Promotion" die Referenzkategorie. Sie dürfen selbst entscheiden, welche Kategorie Sie als Referenzkategorie wählen möchten.

 

Regression mit Dummyvariablen in SPSS berechnen

Lassen Sie uns nun unsere Dummyvariablen benutzen, um eine Regression mit abhängiger Variable "Einkommen" und unabhängiger Variable "Art des Hochschulabschlusses" zu berechnen. Gehen Sie hierzu folgendermaßen vor:

  • Gehen Sie in das Menü Analysieren -> Regression -> Linear. 
  • Wählen Sie links die Variable "Einkommen" aus und fügen Sie sie rechts bei abhängige Variable ein 
  • Wählen Sie links die beiden Variablen "Bachelor" und "Master" aus, und fügen Sie sie rechts bei unabhängige Variablen ein.
  • Drücken Sie dann auf OK.

Dieser Schritt ist in folgender Abbildung dargestellt:

 

 

Sie erhalten sodann im Output-Fenster einen Regressions-Output. 

In unserem Beispiel sieht der Regressions-Output folgendermaßen aus:

 

 

Betrachten wir zunächst die Zeile Bachelor. Der Wert -7509.471 in der Spalte B ganz links bedeutet, dass Personen mit Bachelor im Durchschnitt 7509.471 € weniger verdienen als Personen mit Promotion.

Da "Promotion" unsere Referenzkategorie ist, werden alle Kennzahlen des Outputs in Bezug zur Gruppe "Promotion" interpretiert.

Weiterhin ist der Wert Sig. von Interesse. Dieser Wert beträgt in der Zeile Bachelor 0.000. Der Sig.-Wert ist somit kleiner als 0.05, was bedeutet dass das Durchschnittseinkommen der Personen mit Bachelor sich signifikant vom Einkommen der Personen mit Promotion unterscheidet. 

 

Richten Sie nun Ihre Aufmerksamkeit auf die Zeile Master. Der Wert -1667.021 bedeutet, dass Personen mit Master im Durchschnitt 1667.021 € weniger verdienen als Personen mit Promotion. Der Sig.-Wert beträgt hier 0.151. Dieser Wert ist größer als 0.05, was bedeutet dass der Einkommensunterschied zwischen Master und Promotion nicht statistisch signifikant ist.

 

Sie haben noch offene Fragen zum Thema SPSS oder Dummy-Kodierung? Nutzen Sie unsere statistische Beratung und informieren Sie sich über weitere interessante Themen rund um Statistik und SPSS.

 

Inhalte von Powr.io werden aufgrund deiner aktuellen Cookie-Einstellungen nicht angezeigt. Klicke auf die Cookie-Richtlinie (Funktionell und Marketing), um den Cookie-Richtlinien von Powr.io zuzustimmen und den Inhalt anzusehen. Mehr dazu erfährst du in der Powr.io-Datenschutzerklärung.

Kommentar schreiben

Kommentare: 16
  • #1

    N.H. (Montag, 19 Juni 2017 10:20)

    1000x Danke! Hat mir sehr geholfen!

  • #2

    Nora (Montag, 04 September 2017 21:02)

    Super tausend Dank!
    Eine Frage habe ich noch: Muss ich das getrennt von meiner Regression mit den anderen unabhängigen Variablen betrachten (weil sich die Auswertung ja auf die Referenzkategorie bezieht) oder kann ich es integrieren?

  • #3

    E.B (Donnerstag, 05 Oktober 2017 15:23)

    vielen Dank hat mir sehr viel geholfen :)

  • #4

    Alex (Dienstag, 05 Dezember 2017 17:22)

    Gibt es nicht auch Regeln oder zumindest Empfehlungen welche Ausprägung man als Referenzkategorie wählt? Dies hat doch bestimmt Auswirkungen auf die Signifikanz der Dummy-Variablen. Ich habe bspw. gehört, teilweise wird die Kategorie des Medianwertes der abhängigen Variablen gewählt?! Ggf. könntest du erläutern wieso!
    Vielen Dank und Gruß
    Alex

  • #5

    Marco (Montag, 11 Juni 2018)

    Klasse erklärt! Danke!!!!

  • #6

    Linda (Donnerstag, 19 Juli 2018 17:21)

    Gute Erklärung :)
    Wie ist es denn wenn ich nur zwei Ausprägungen habe? In meiner Befragung ist es beispielsweise so, dass Personen entweder einen bestimmten Hinweis im Stimulus eingeblendet hatten und andere nicht. Muss ich auch hier eine Dummy-Kodierung vornehmen? Ich möchte eine Mediationsanalyse rechnen und die bedient sich ja auch der Regression. Liebe Grüße :)

  • #7

    Anne (Dienstag, 07 August 2018 21:55)

    Wenn man 1=weiblich und 2=männlich hat: ist das dann auch ein Dummy oder erkennt SPSS es nur als Dummy, wenn es 0/1 codiert ist?

  • #8

    Janina (Dienstag, 11 September 2018 14:59)

    Lieben Dank! Was ist denn der Unterschied zu einer ANOVA?

  • #9

    Isabella (Mittwoch, 23 Januar 2019 12:36)

    Sehr gut und einfach erklärt, vielen Dank für die Hilfe!

  • #10

    Isabelle (Donnerstag, 23 Mai 2019 17:26)

    Fantastisch. Super easy und anschaulich erklärt. Vielen Dank!

  • #11

    Marie (Dienstag, 22 Oktober 2019 16:48)

    Wie sind die Werte zu interpretieren wenn ich mit einer Dummy-Variable eine moderierte Regression rechne?

  • #12

    Susi (Montag, 28 September 2020 22:37)

    Hallo,

    Ist es normal, dass die Dummyvariablen untereinander in der Korrelationsmatrix im SPSS Output stark korrelieren? - Stichwort Multikollinearität.

    Beste Grüße

  • #13

    Dani (Freitag, 17 Dezember 2021 12:04)

    Hallo,
    Wie würde das ganze mit einer logistischen Regression aussehen (abhängige Variable ist kategorisch, unabhängige ist metrisch)? Kann ich da kategorische Dummy-Variablen einfach genauso wie beschrieben einfügen?
    Vielen Dank und beste Grüße!

  • #14

    J. Smigierski (Freitag, 17 Dezember 2021 13:42)

    @Dani: Für eine unabhängige metrische Variable müssen Sie keine Dummy-Kodierung vornehmen. Nur für eine kategorielle unabhängige Variable.

  • #15

    3 (Dienstag, 14 November 2023 15:30)

    3

  • #16

    Laura (Samstag, 16 November 2024 16:52)

    Danke für die gute Erklärung, mir stellt sich jedoch noch die Frage, wie ich die Referenzkategorie sinnvoll wähle: Ist es besser die kleinste oder größte Kategorie zu wählen oder die Kategorie mit den meisten Probanden (also die, die sich dem Median oder dem Mittelwert am nächsten kommt)?
    Danke. LG