Arbeiten mit geschachtelten Missings im Datensatz

Wie rufe ich R-Funktionen auf, wie selektiere ich Daten, ich weiß nicht genau ....

Moderatoren: EDi, jogo

Antworten
robyn
Beiträge: 3
Registriert: Do Aug 01, 2019 2:39 pm

Arbeiten mit geschachtelten Missings im Datensatz

Beitrag von robyn »

Hey,

folgendes ist mein Problem:
Ich habe eine Stichprobe (N=298), bei der ich den Zusammenhang zwischen soziodemografischen Variablen und der Inanspruchnahme medizinischer Leistungen untersuchen möchte. Dafür erhebe ich diverse Variablen (z.B. Inanspruchnahmewahrscheinlichkeit Herz-Kreis) bei allen Teilnehmer*innen.
Es gibt jedoch zusätzliche Filter, so dass unterschiedliche Gruppen verschiedene Fragen erhalten.
Filter 1: Gehst du noch zur Schule?
--> ja (n=280): Welche Schulform?
--> nein (n=18): Welchen Schulabschluss hast du gemacht?

Filter 2: Hast du schon mal jemals eine kardiologische Untersuchung in Anspruch genommen?
--> Ja: Wie häufig? Wie hilfreich fandest du es? Hast du in den letzten 12 Monaten eine kardiol. Untersuchung in Anspruch genommen?
-->wenn ja: wie häufig? Wie hilfreich fandest du es?

Soweit zur Datenstruktur.
Mein Ziel sind Regressionsanalysen von z.B. Inanspruchnhamewahrscheinlichkeit Herz-Kreis auf Schulform / Schulabschluss.
Ich habe jetzt keine Ahnung, wie ich dabei mit den Missings umgehen soll. Ich kann ja nicht einfach alle missings ausschließen.

Bis jetzt habe ich mehrere Datensätze erstellt (1 für Schüler*innen, 1 für Nicht-Schüler*innen, 1 für Inanspruchnehmer*innen etc) - gibt es eine andere Möglichkeit? Gibt es die Möglichkeit partieller Ausschlüsse für einzelne Regressionen?

Ich freue mich über jede Idee und Unterstützung. Danke!
Viele Grüße,
robyn
jogo
Beiträge: 2093
Registriert: Fr Okt 07, 2016 8:25 am

Re: Arbeiten mit geschachtelten Missings im Datensatz

Beitrag von jogo »

Hallo robyn,

willkommen im Forum!
Hast Du die Daten bereits eingelesen und kannst uns die Struktur zeigen :?:

Code: Alles auswählen

str(DeinDataframe)
Gruß, Jörg
robyn
Beiträge: 3
Registriert: Do Aug 01, 2019 2:39 pm

Re: Arbeiten mit geschachtelten Missings im Datensatz

Beitrag von robyn »

klar, hier ein Ausschnitt:

> str(dat)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 298 obs. of 162 variables:
$ gender : Factor w/ 5 levels "1","2","4","5",..: 1 1 2 1 1 1 1 1 1 1 ...
$ sexuelle_orientierung : num 1 1 2 4 1 3 2 1 2 1 ...
$ age : num 14 16.2 15.3 14.2 17.3 ...
$ schulbesuch : num 1 1 1 1 1 2 2 1 1 1 ...
$ schulform : num 5 5 5 2 5 NA NA 3 5 5 ...
$ klassenstufe : num 8 10 10 8 12 NA NA 10 12 13 ...
$ schulabschluss : num NA NA NA NA NA 1 1 NA NA NA ...
$ taetigkeit : num NA NA NA NA NA 5 6 NA NA NA ...
$ wohnort_size : num 1 1 5 1 1 2 1 1 1 2 ...
$ job_mutter : num 4 4 6 2 5 5 1 5 4 5 ...
$ job_vater : num 5 5 5 2 5 5 5 5 5 5 ...
$ ses_schule : num 7 9 5 10 8 NA NA 8 4 6 ...
$ ses_arbeit : num NA NA NA NA NA 4 4 NA NA NA ...
$ inanspruchnahme_ever : num 1 1 3 1 1 4 8 1 3 1 ...
$ inanspruchnahme_ever_count : num NA NA 15 NA NA NA NA NA 4 NA ...
$ inanspruchnahme_beruf : num NA NA 1 NA NA 1 2 NA 1 NA ...
$ inanspruchnahme_hilfreich : num NA NA 4 NA NA 4 4 NA 2 NA ...
$ inanspruchnahme_12mo : num NA NA 3 NA NA 3 3 NA 3 NA ...
$ inanspruchnahme_12mo_count : num NA NA 15 NA NA 40 50 NA 4 NA ...
jogo
Beiträge: 2093
Registriert: Fr Okt 07, 2016 8:25 am

Re: Arbeiten mit geschachtelten Missings im Datensatz

Beitrag von jogo »

Kommt für Dich sowas wie ein Chi²-Test in Frage?

Code: Alles auswählen

?chisq.test
(eventuell müssen einige Variablen wieder in Faktoren umgewandelt werden)

Gruß, Jörg
robyn
Beiträge: 3
Registriert: Do Aug 01, 2019 2:39 pm

Re: Arbeiten mit geschachtelten Missings im Datensatz

Beitrag von robyn »

Nein, das bringt mir leider nichts, danke. Mir geht es ja gerade um eine Datensatzerstellung trotz serieller Missings und nicht um ein geeignetes Analyseverfahren.
jogo
Beiträge: 2093
Registriert: Fr Okt 07, 2016 8:25 am

Re: Arbeiten mit geschachtelten Missings im Datensatz

Beitrag von jogo »

Gibt es die Möglichkeit partieller Ausschlüsse für einzelne Regressionen?
klar, denn die Funktion lm() hat einen Parameter subset=, mit dem bestimmt wird, dass nur eine Teilmenge der Beobachtungen des Dataframes (Parameter data=) verwendet wird.

Gruß, Jörg
Antworten