Fehlende Werte NA's aussortieren für logistische Regression
Verfasst: Do Feb 09, 2023 10:46 am
Dass ich meine binäre logistische Regression durchführen kann, muss ich die NA's aus meinen wichtigen Variablen aussortieren.
Dazu habe ich folgende Formel auf folgende Variablen angewandt:
Allerdings musste ich feststellen, dass sich meine Variablengröße extrem verringert hat.
z.B. hatte ich in meinem ursprünglichen Datensatz (1== Männer, 2==Frauen):
Nach dem aussortieren der fehlenden Werte nur noch:
Außerdem hat es mir in der Variable BZ_Fam komplett die Gruppe 1 entfernt:
vorher:
und nachher, ich kann also meine Regression nicht durchführen, da komplett eine Gruppe fehlt:
Und in meiner Variable sd47i1, habe ich nur noch so eine geringe Anzahl von Fällen, dass ich meine Regression nicht mehr durchführen kann.
vorher:
nachher:
Gibt es eine andere Formel mit der ich meine NA's entfernen kann, ohne so einen großen Datenverlust und ohne dass mir komplett eine Gruppe gelöscht wird?
Ich brauche also eine Formel, in der ich alle NA's in meinen wichtigen Variablen entfernen kann. Ich bitte um Hilfe.
Dazu habe ich folgende Formel auf folgende Variablen angewandt:
Code: Alles auswählen
MF_subset <- MF[ , c("polMaßn", "verheiratet", "BZ_Fam", "Zufriedenh_BZ", "erwerbstätig", "Zufriedenh_EW", "Staatsb", "Gland", "Internet", "LZ", "Kinder_AK", "eig_Kinder", "SES_3", "belastet", "Angst", "guteSeiten", "finanzielleEinb", "persKontakt", "Berufsstatus", "Alter", "sd47i1")]
data_by_column <- MF[complete.cases(MF_subset), ] # Omit NAs by columns
data_by_column #dataframe für binary log Regression
z.B. hatte ich in meinem ursprünglichen Datensatz (1== Männer, 2==Frauen):
Code: Alles auswählen
> table(MF$sex)
1 2
16713 20254
Code: Alles auswählen
table(data_by_column$sex)
1 2
5069 6445
vorher:
Code: Alles auswählen
table(MF$BZ_Fam)
1 2
8513 27540
Code: Alles auswählen
table(data_by_column$BZ_Fam)
2
11514
vorher:
Code: Alles auswählen
table(MF$sd47i1)
0 1
18575 18392
Code: Alles auswählen
table(data_by_column$sd47i1)
0 1
11459 55
Ich brauche also eine Formel, in der ich alle NA's in meinen wichtigen Variablen entfernen kann. Ich bitte um Hilfe.