Mit fehlenden Daten für deskriptive Statistik umgehen
Verfasst: Di Feb 25, 2025 10:22 am
Hallo zusammen,
ich habe folgende Frage zum Thema Missing Data:
Ich möchte in R deskriptive Tabellen erstellen, in denen ich mir den Anteil einer Subgruppe an der gesamten Stichprobe im Zeitverlauf und Ländervergleich anschaue. Das ganze möchte ich dann auch noch nach demografischen Variablen differenzieren, also wie hoch ist der Anteil dieser Gruppe innerhalb der Gruppe der Männer usw.
Jetzt Frage ich mich aber, wie ich mit fehlenden Werten umgehen soll, also z.B. Leute ohne Altersangabe, ohne Geschlechtsangabe usw.
Sollte ich einfach alle Beobachtungen mit "filter(!is.na(gender) & (!is.na(alter))" aus dem Datensatz löschen?
Ich befürchte dann nämlich, dass ich die Auswertung verzerre. Für meine Auswertung der Altersgruppen ist es ja zum Beispiel egal, ob ich das Geschlecht der Person kenne. Insgesamt habe ich 8 demografische Variablen, die natürlich alle fehlende Werte enthalten.
Daher meine Frage: Wie seht ihr das, würdet ihr alle Missings löschen oder für diese Analyse anders damit umgehen?
Vielen Dank im Voraus!
ich habe folgende Frage zum Thema Missing Data:
Ich möchte in R deskriptive Tabellen erstellen, in denen ich mir den Anteil einer Subgruppe an der gesamten Stichprobe im Zeitverlauf und Ländervergleich anschaue. Das ganze möchte ich dann auch noch nach demografischen Variablen differenzieren, also wie hoch ist der Anteil dieser Gruppe innerhalb der Gruppe der Männer usw.
Jetzt Frage ich mich aber, wie ich mit fehlenden Werten umgehen soll, also z.B. Leute ohne Altersangabe, ohne Geschlechtsangabe usw.
Sollte ich einfach alle Beobachtungen mit "filter(!is.na(gender) & (!is.na(alter))" aus dem Datensatz löschen?
Ich befürchte dann nämlich, dass ich die Auswertung verzerre. Für meine Auswertung der Altersgruppen ist es ja zum Beispiel egal, ob ich das Geschlecht der Person kenne. Insgesamt habe ich 8 demografische Variablen, die natürlich alle fehlende Werte enthalten.
Daher meine Frage: Wie seht ihr das, würdet ihr alle Missings löschen oder für diese Analyse anders damit umgehen?
Vielen Dank im Voraus!