Hallo zusammen,
ich habe folgende Frage zum Thema Missing Data:
Ich möchte in R deskriptive Tabellen erstellen, in denen ich mir den Anteil einer Subgruppe an der gesamten Stichprobe im Zeitverlauf und Ländervergleich anschaue. Das ganze möchte ich dann auch noch nach demografischen Variablen differenzieren, also wie hoch ist der Anteil dieser Gruppe innerhalb der Gruppe der Männer usw.
Jetzt Frage ich mich aber, wie ich mit fehlenden Werten umgehen soll, also z.B. Leute ohne Altersangabe, ohne Geschlechtsangabe usw.
Sollte ich einfach alle Beobachtungen mit "filter(!is.na(gender) & (!is.na(alter))" aus dem Datensatz löschen?
Ich befürchte dann nämlich, dass ich die Auswertung verzerre. Für meine Auswertung der Altersgruppen ist es ja zum Beispiel egal, ob ich das Geschlecht der Person kenne. Insgesamt habe ich 8 demografische Variablen, die natürlich alle fehlende Werte enthalten.
Daher meine Frage: Wie seht ihr das, würdet ihr alle Missings löschen oder für diese Analyse anders damit umgehen?
Vielen Dank im Voraus!
Mit fehlenden Daten für deskriptive Statistik umgehen
Re: Mit fehlenden Daten für deskriptive Statistik umgehen
Hallo Bakerloo,
Du solltest Dir die Mühe machen gründlich anzuschauen, welche Daten da fehlen. Wenn es 3% der Daten sind wäre mein Vorgehen anders als wenn es 50% der Daten fehlten. Die nächste Frage ist, ob die Daten systematisch fehlen oder zufällig. Wenn die Altersangaben bei den Frauen fehlen und der Altersdurchschnitt ist bei den Frauen höher als bei den Männern, dann haben sich vllt junge Frauen nicht getraut, ihr Alter anzugeben. Nach solchen Zusammenhängen solltest Du suchen, bevor Du Dich entscheidest.
Ich selbst arbeite gerade an einem Projekt, in dem ich alle Variablen weglassen konnte, die wirklich häufig fehlen und die gelegentlich unsystematischen missing habe ich über kNN-Imputation imputiert. Das VIM package macht das Imputieren sehr leicht. Die Entscheidung dazu sollte man sich nicht leicht machen.
Ist Dir Imputation als Konzept bekannt/vertraut?
LG,
Bernhard
PS: Ich schreibe meine Auswertungen gerne in Quarto-Dokumenten und erstelle zusammenfassende Tabellen gerne mit dem Paket gtsummary. Das geht recht einfach, sieht gut aus und gefällt meinen Kooperationspartnern. Manchmal denke ich, dass gtsummary zu lange zum Rechnen braucht, aber Du solltest es Dir mal anschauen. Natürlich gibt es unzählige Alternativen wenn man in R Übersichtsabellen erstellen will.
Du solltest Dir die Mühe machen gründlich anzuschauen, welche Daten da fehlen. Wenn es 3% der Daten sind wäre mein Vorgehen anders als wenn es 50% der Daten fehlten. Die nächste Frage ist, ob die Daten systematisch fehlen oder zufällig. Wenn die Altersangaben bei den Frauen fehlen und der Altersdurchschnitt ist bei den Frauen höher als bei den Männern, dann haben sich vllt junge Frauen nicht getraut, ihr Alter anzugeben. Nach solchen Zusammenhängen solltest Du suchen, bevor Du Dich entscheidest.
Ich selbst arbeite gerade an einem Projekt, in dem ich alle Variablen weglassen konnte, die wirklich häufig fehlen und die gelegentlich unsystematischen missing habe ich über kNN-Imputation imputiert. Das VIM package macht das Imputieren sehr leicht. Die Entscheidung dazu sollte man sich nicht leicht machen.
Ist Dir Imputation als Konzept bekannt/vertraut?
LG,
Bernhard
PS: Ich schreibe meine Auswertungen gerne in Quarto-Dokumenten und erstelle zusammenfassende Tabellen gerne mit dem Paket gtsummary. Das geht recht einfach, sieht gut aus und gefällt meinen Kooperationspartnern. Manchmal denke ich, dass gtsummary zu lange zum Rechnen braucht, aber Du solltest es Dir mal anschauen. Natürlich gibt es unzählige Alternativen wenn man in R Übersichtsabellen erstellen will.
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte