Seite 1 von 1

Referenzkategorie GLM

Verfasst: Di Jan 23, 2018 10:02 am
von juanita_125
Hallo zusammen,

bei der Durchführung einer logistischen Regression bzw. deren Vorbereitung im Datenmanagement bin ich auf folgendes Problem gestoßen:

Zunächst haben wir zu Bildlung (im Datensatz in 6 Leveln angegeben) Dummy-Variablen erstellt:

Code: Alles auswählen

allbus_data <- allbus_data %>% 
  mutate (bildung_2 = ifelse(bildung == 2, 1, 0)  %>% as.integer(), 
          bildung_3 = ifelse(bildung == 3, 1, 0)  %>% as.integer(),
          bildung_4 = ifelse (bildung == 4, 1, 0) %>% as.integer(),
          bildung_5 = ifelse (bildung == 5, 1, 0) %>% as.integer(),
          bildung_6 = ifelse (bildung == 6, 1, 0) %>% as.integer())
Ist das soweit richtig?
Muss ich beim Rechnen der GLM alle dummies angeben oder eine Referenzkategorie festlegen? Wie mache ich das?
Wenn ich alle dummies angebe, ist das Output nicht das gewünschte.

Vielen Dank für eure Hilfe! Beste Grüße, Joan

Re: Referenzkategorie GLM

Verfasst: Di Jan 23, 2018 1:03 pm
von bigben
Hallo juanita,

Wenn ein Prädiktor den Datentyp factor oder ordered hat, dann erstellt R in der Regel alle erforderlichen Dummyvariablen selbst. Teste mit

Code: Alles auswählen

str(allbus_data$bildung)
den Datentyp.

Dann sollte ein

Code: Alles auswählen

model <- glm(ziel ~ bildung, data = allbus_data, family="binomial")
ganz von selbst zum erwünschten Ergebnis kommen. Referenz sucht R sich selbst raus, kann man aber auch verändern. Vielleicht kriegst Du es erstmal so zu laufen und kümmerst Dich später darum, welche Kategorie Referenzkategorie ist.

LG,
Bernhard

Re: Referenzkategorie GLM

Verfasst: Di Jan 23, 2018 9:14 pm
von EDi
Referenz sucht R sich selbst raus
Und zwar die alphabetisch erste Kategorie.

Auch wenn eine unterschiedliche Referenz sinnmachen kann, würde ich eher raten direct die Vergleiche zu rechnen die man haben will (multcomp oder emmeans Pakete).