ich bin neu im Forum und dies ist mein erster Post Ich hoffe, dass mein Anliegen hier hin passt und mir geholfen werden kann.
Hintergrund:
Im Rahmen meines Studiums befasse ich mich gerade mit fehlenden Daten in Datensätzen. Speziell geht es mir um das "Testen" von Ausfallmechanismen. Dabei können ja im Allgemeinen nur die Mechanismen MCAR und MAR voneinander abgegrenzt werden. Beliebte Verfahren dazu sind der klassische t-Test und der Little-Test, allerdings würde ich gerne eine logistische Regressionsanalyse durchführen, um zu überprüfen, ob signifikante Prädikatoreffekte bezüglich meiner abhängigen Variable vorhanden sind. Die abhängige Variable beinhaltet fehlende Daten und wurde dementsprechend 0/1-codiert. Also 1 für fehlende und 0 für vorhandene Werte. Signifikante Koeffizienten würden eine Verwerfung von MCAR bedeuten und eine notwendige Bedingung für MAR darstellen, während nicht signifikante Koeffizienten eine notwendige Bedingung für die Akzeptierung von MCAR bedeuten würde.
Eigentliches Problem:
Ich hab die logistische Regression bereits durchgeführt und komme für einen beispielhaften Datensatz auf folgende Ergebnisse:
Code: Alles auswählen
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -94.369201 32.998066 -2.8598 0.0042385 **
Merkmal 1 Ausprägung 2 0.123746 0.875991 0.1413 0.8876612
Merkmal 1 Ausprägung 3 -1.428825 0.402110 -3.5533 0.0003804 ***
Merkmal 1 Ausprägung 4 -1.953165 0.738827 -2.6436 0.0082029 **
Merkmal 2(kardinal) 0.047460 0.016492 2.8778 0.0040046 **
Fragestellung
Jetzt zu meinen eigentlichen Fragen:
- 1. Stimmen meine Gedankengänge und Ausführungen zur Überprüfung von MCAR bis zu dieser Stelle oder bin ich völlig auf dem Holzweg?
- 2. Kann ich bei nominalen Merkmalen überhaupt eine Aussage über Signifikanz treffen bezüglich meiner abhängigen Variable?
Und falls ja: Kann ich Aussagen über einzelne Ausprägungen treffen oder nur über das nominale Merkmal als ganzes bezüglich der abhängigen Variable?
- 3. Wie kann ich in R wählen, welche Ausprägung als Referenz bestimmt wird?
(Hab gelesen, dass die häufigste oder am wenigsten häufige Ausprägung Sinn machen würde, um die Interpretation zu vereinfachen, sofern keine Präferenz bezüglich einer Ausprägung besteht)