Logistische Regression - Datenmanagement

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

Antworten
juanita_125
Beiträge: 3
Registriert: Sa Jan 20, 2018 2:05 pm

Logistische Regression - Datenmanagement

Beitrag von juanita_125 » Sa Jan 20, 2018 3:39 pm

Hallo zusammen,

ich versuche mich gerade an einer logistischen Regression.
Untersucht werden mögliche Einflussfaktoren auf die Mitgliedschaft in einer Partei (partei = aV).
Konkret geht es das Umkodieren der Variablen bzw. das Zuweisen der Datentypen.

Dazu habe ich zunächst folgenden Befehl ausgeführt:

Code: Alles auswählen

allbus_p <- allbus_p %>% 
  mutate (member = ifelse(party == 1, 1, 0) %>% as.integer,
          sex = as_factor(sex),
          age = as.numeric(age),
          income = as_factor(income),
          leftright = as_factor(leftright),
          education = as_factor(education))
- Im Allbus wird das Einkommen kategorisiert angeszeigt, d.h. es gibt ca.20 Kategorien (200-399€, 400-499€...<7500€ usw.).
Sollte ich die Variable vorher umkodieren, damit später nicht für jede Kategorie einzeln Werte ausgegeben werden?
- Auch bei der Verortung auf der Links-Rechts-Skala bin ich unsicher, ob es der richtige Datentyp ist (im Datensatz erfolgt die Zuweisung über Buchstaben A 'links', - P 'rechts') und ob ich die Variable so in die weitere Rechnung miteinbeziehen kann.
- Die gleiche Frage gilt für 'Bildung', welche im Datensatz in 6 Kategorien angegeben ist.

Die folgende Ausgabe ist sehr unübersichtlich und wie beschrieben bin ich mir nicht sicher, ob die Eingabe so zielführend ist. Wie gehe ich damit um? Wo liegen die Fehler?

Code: Alles auswählen

glm(formula = member ~ sex + age + income + leftright + education, 
    family = binomial(), data = allbus_p)
summary(logit)

Code: Alles auswählen

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-0.8470  -0.2962  -0.2153  -0.1494   3.1965  

Coefficients:
                              Estimate Std. Error z value Pr(>|z|)    
(Intercept)                 -1.954e+01  2.330e+03  -0.008 0.993308    
sexFRAU                      6.981e-02  2.219e-01   0.315 0.753037    
age                          2.248e-02  6.563e-03   3.426 0.000612 ***
income200 - 299 EURO        -2.953e-01  1.469e+00  -0.201 0.840704    
income300 - 399 EURO        -1.608e+01  1.231e+03  -0.013 0.989578    
income400 - 499 EURO        -7.550e-01  1.271e+00  -0.594 0.552368    
income500 - 624 EURO         1.295e-01  1.131e+00   0.114 0.908885    
income625 - 749 EURO        -1.632e+01  8.651e+02  -0.019 0.984953    
income750 - 874 EURO        -6.054e-01  1.167e+00  -0.519 0.603953    
income875 - 999 EURO        -3.293e-01  1.170e+00  -0.282 0.778323    
income1000 - 1124 EURO      -4.445e-01  1.122e+00  -0.396 0.692087    
income1125 - 1249 EURO      -5.994e-01  1.148e+00  -0.522 0.601589    
income1250 - 1374 EURO      -5.724e-01  1.210e+00  -0.473 0.636091    
income1375 - 1499 EURO      -4.471e-01  1.171e+00  -0.382 0.702677    
income1500 - 1749 EURO      -3.734e-01  1.103e+00  -0.339 0.734857    
income1750 - 1999 EURO      -4.971e-01  1.137e+00  -0.437 0.662000    
income2000 - 2249 EURO      -6.564e-01  1.134e+00  -0.579 0.562783    
income2250 - 2499 EURO       2.228e-01  1.142e+00   0.195 0.845289    
income2500 - 2749 EURO       7.819e-01  1.101e+00   0.710 0.477522    
income2750 - 2999 EURO      -2.546e-01  1.283e+00  -0.198 0.842702    
income3000 - 3999 EURO       5.161e-01  1.091e+00   0.473 0.636151    
income4000 - 4999 EURO       7.757e-01  1.121e+00   0.692 0.488959    
income5000 - 7499 EURO      -1.656e+01  1.409e+03  -0.012 0.990623    
income7500 EURO UND MEHR    -1.625e-01  1.521e+00  -0.107 0.914915    
leftrightA                   4.453e-02  5.887e-01   0.076 0.939701    
leftrightM                  -6.365e-01  5.475e-01  -1.163 0.244972    
leftrightO                  -4.599e-01  5.417e-01  -0.849 0.395878    
leftrightG                  -1.369e+00  5.485e-01  -2.496 0.012563 *  
leftrightZ                  -1.135e+00  5.345e-01  -2.123 0.033724 *  
leftrightE                  -5.515e-01  5.634e-01  -0.979 0.327617    
leftrightY                  -7.316e-01  6.714e-01  -1.090 0.275847    
leftrightI                   6.386e-01  8.051e-01   0.793 0.427683    
leftrightP - RECHTS          4.658e-01  9.227e-01   0.505 0.613653    
educationLOWER SECONDARY     1.564e+01  2.330e+03   0.007 0.994642    
educationUPPER SECONDARY     1.565e+01  2.330e+03   0.007 0.994640    
educationPOST SECONDARY      1.604e+01  2.330e+03   0.007 0.994506    
educationTERTIARY,1ST STAGE  1.624e+01  2.330e+03   0.007 0.994438    
educationTERTIARY,2ND STAGE  1.631e+01  2.330e+03   0.007 0.994416    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 921.40  on 2970  degrees of freedom
Residual deviance: 823.96  on 2933  degrees of freedom
AIC: 899.96
Number of Fisher Scoring iterations: 18
Über Antworten, Ratschläge und Hinweise würde ich mich sehr freuen!
Beste Grüße,
Joan
Zuletzt geändert von juanita_125 am Mo Jan 22, 2018 10:11 pm, insgesamt 1-mal geändert.

bigben
Beiträge: 551
Registriert: Mi Okt 12, 2016 9:09 am

Re: Logistische Regression - Datenmanagement

Beitrag von bigben » Sa Jan 20, 2018 8:48 pm

juanita_125 hat geschrieben:
Sa Jan 20, 2018 3:39 pm
- Im Allbus wird das Einkommen kategorisiert angeszeigt, d.h. es gibt ca.20 Kategorien (200-399€, 400-499€...<7500€ usw.).
Sollte ich die Variable vorher umkodieren, damit später nicht für jede Kategorie einzeln Werte ausgegeben werden?
Hallo Joan,

wenn die Daten nur ordinalskaliert vorliegen, dann kannst Du Sie im linearen Modell auch nur in Form von Dummyvariablen einsetzen. Das gilt für alle kategorialskalierten Variablen. Alles andere als das Einsetzen jeder einzelnen Kategorie wäre mathematisch nicht korrekt. Du kannst Dir natürlich für Deine Zwecke jede Kategorie durch das jeweils mittlere Einkommen ersetzen, oder durch einen Zufallswert aus dem jeweiligen Intervall, aber wie gut das dann die Wahrheit beschreibt ist eine inhaltliche, keine statistische Frage.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte

Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast