Referenzkategorie GLM

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

Antworten
juanita_125

Referenzkategorie GLM

Beitrag von juanita_125 »

Hallo zusammen,

bei der Durchführung einer logistischen Regression bzw. deren Vorbereitung im Datenmanagement bin ich auf folgendes Problem gestoßen:

Zunächst haben wir zu Bildlung (im Datensatz in 6 Leveln angegeben) Dummy-Variablen erstellt:

Code: Alles auswählen

allbus_data <- allbus_data %>% 
  mutate (bildung_2 = ifelse(bildung == 2, 1, 0)  %>% as.integer(), 
          bildung_3 = ifelse(bildung == 3, 1, 0)  %>% as.integer(),
          bildung_4 = ifelse (bildung == 4, 1, 0) %>% as.integer(),
          bildung_5 = ifelse (bildung == 5, 1, 0) %>% as.integer(),
          bildung_6 = ifelse (bildung == 6, 1, 0) %>% as.integer())
Ist das soweit richtig?
Muss ich beim Rechnen der GLM alle dummies angeben oder eine Referenzkategorie festlegen? Wie mache ich das?
Wenn ich alle dummies angebe, ist das Output nicht das gewünschte.

Vielen Dank für eure Hilfe! Beste Grüße, Joan
Zuletzt geändert von jogo am Di Jan 23, 2018 10:03 am, insgesamt 1-mal geändert.
Grund: Code formatiert
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Referenzkategorie GLM

Beitrag von bigben »

Hallo juanita,

Wenn ein Prädiktor den Datentyp factor oder ordered hat, dann erstellt R in der Regel alle erforderlichen Dummyvariablen selbst. Teste mit

Code: Alles auswählen

str(allbus_data$bildung)
den Datentyp.

Dann sollte ein

Code: Alles auswählen

model <- glm(ziel ~ bildung, data = allbus_data, family="binomial")
ganz von selbst zum erwünschten Ergebnis kommen. Referenz sucht R sich selbst raus, kann man aber auch verändern. Vielleicht kriegst Du es erstmal so zu laufen und kümmerst Dich später darum, welche Kategorie Referenzkategorie ist.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Referenzkategorie GLM

Beitrag von EDi »

Referenz sucht R sich selbst raus
Und zwar die alphabetisch erste Kategorie.

Auch wenn eine unterschiedliche Referenz sinnmachen kann, würde ich eher raten direct die Vergleiche zu rechnen die man haben will (multcomp oder emmeans Pakete).
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten