Mit fehlenden Daten für deskriptive Statistik umgehen

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
Bakerloo
Beiträge: 1
Registriert: Di Feb 25, 2025 10:04 am

Mit fehlenden Daten für deskriptive Statistik umgehen

Beitrag von Bakerloo »

Hallo zusammen,

ich habe folgende Frage zum Thema Missing Data:

Ich möchte in R deskriptive Tabellen erstellen, in denen ich mir den Anteil einer Subgruppe an der gesamten Stichprobe im Zeitverlauf und Ländervergleich anschaue. Das ganze möchte ich dann auch noch nach demografischen Variablen differenzieren, also wie hoch ist der Anteil dieser Gruppe innerhalb der Gruppe der Männer usw.

Jetzt Frage ich mich aber, wie ich mit fehlenden Werten umgehen soll, also z.B. Leute ohne Altersangabe, ohne Geschlechtsangabe usw.

Sollte ich einfach alle Beobachtungen mit "filter(!is.na(gender) & (!is.na(alter))" aus dem Datensatz löschen?
Ich befürchte dann nämlich, dass ich die Auswertung verzerre. Für meine Auswertung der Altersgruppen ist es ja zum Beispiel egal, ob ich das Geschlecht der Person kenne. Insgesamt habe ich 8 demografische Variablen, die natürlich alle fehlende Werte enthalten.

Daher meine Frage: Wie seht ihr das, würdet ihr alle Missings löschen oder für diese Analyse anders damit umgehen?

Vielen Dank im Voraus!
bigben
Beiträge: 2879
Registriert: Mi Okt 12, 2016 9:09 am

Re: Mit fehlenden Daten für deskriptive Statistik umgehen

Beitrag von bigben »

Hallo Bakerloo,

Du solltest Dir die Mühe machen gründlich anzuschauen, welche Daten da fehlen. Wenn es 3% der Daten sind wäre mein Vorgehen anders als wenn es 50% der Daten fehlten. Die nächste Frage ist, ob die Daten systematisch fehlen oder zufällig. Wenn die Altersangaben bei den Frauen fehlen und der Altersdurchschnitt ist bei den Frauen höher als bei den Männern, dann haben sich vllt junge Frauen nicht getraut, ihr Alter anzugeben. Nach solchen Zusammenhängen solltest Du suchen, bevor Du Dich entscheidest.

Ich selbst arbeite gerade an einem Projekt, in dem ich alle Variablen weglassen konnte, die wirklich häufig fehlen und die gelegentlich unsystematischen missing habe ich über kNN-Imputation imputiert. Das VIM package macht das Imputieren sehr leicht. Die Entscheidung dazu sollte man sich nicht leicht machen.

Ist Dir Imputation als Konzept bekannt/vertraut?

LG,
Bernhard



PS: Ich schreibe meine Auswertungen gerne in Quarto-Dokumenten und erstelle zusammenfassende Tabellen gerne mit dem Paket gtsummary. Das geht recht einfach, sieht gut aus und gefällt meinen Kooperationspartnern. Manchmal denke ich, dass gtsummary zu lange zum Rechnen braucht, aber Du solltest es Dir mal anschauen. Natürlich gibt es unzählige Alternativen wenn man in R Übersichtsabellen erstellen will.
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten