Logistische Regression zur Überprüfung von MCAR

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

Antworten
Kaarl

Logistische Regression zur Überprüfung von MCAR

Beitrag von Kaarl »

Hallo zusammen,

ich bin neu im Forum und dies ist mein erster Post :) Ich hoffe, dass mein Anliegen hier hin passt und mir geholfen werden kann.

Hintergrund:
Im Rahmen meines Studiums befasse ich mich gerade mit fehlenden Daten in Datensätzen. Speziell geht es mir um das "Testen" von Ausfallmechanismen. Dabei können ja im Allgemeinen nur die Mechanismen MCAR und MAR voneinander abgegrenzt werden. Beliebte Verfahren dazu sind der klassische t-Test und der Little-Test, allerdings würde ich gerne eine logistische Regressionsanalyse durchführen, um zu überprüfen, ob signifikante Prädikatoreffekte bezüglich meiner abhängigen Variable vorhanden sind. Die abhängige Variable beinhaltet fehlende Daten und wurde dementsprechend 0/1-codiert. Also 1 für fehlende und 0 für vorhandene Werte. Signifikante Koeffizienten würden eine Verwerfung von MCAR bedeuten und eine notwendige Bedingung für MAR darstellen, während nicht signifikante Koeffizienten eine notwendige Bedingung für die Akzeptierung von MCAR bedeuten würde.

Eigentliches Problem:
Ich hab die logistische Regression bereits durchgeführt und komme für einen beispielhaften Datensatz auf folgende Ergebnisse:

Code: Alles auswählen

Coefficients:
                                 Estimate    Std. Error    z value    Pr(>|z|)    
(Intercept)                        -94.369201  32.998066  -2.8598    0.0042385 ** 
Merkmal 1 Ausprägung 2              0.123746   0.875991    0.1413    0.8876612    
Merkmal 1 Ausprägung 3             -1.428825   0.402110   -3.5533    0.0003804 ***
Merkmal 1 Ausprägung 4             -1.953165   0.738827   -2.6436    0.0082029 ** 
Merkmal 2(kardinal)                 0.047460   0.016492    2.8778    0.0040046 ** 
Merkmal 1 stellt ein nominales Merkmal mit 4 Ausprägungen dar. Die erste Ausprägung fehlt jedoch in dieser Übersicht. Dies liegt daran, dass bei nominalen Merkmalen immer eine Ausprägung als Referenz genommen wird für die restlichen Ausprägungen. In R wird standardmäßig alphabetisch eine Ausprägung als Referenz gewählt. Je nach gewählter Referenz verändern sich aber ebenfalls die p.values und deren Signifikanz-Codes innerhalb des nominalen Merkmals.

Fragestellung
Jetzt zu meinen eigentlichen Fragen:
  • 1. Stimmen meine Gedankengänge und Ausführungen zur Überprüfung von MCAR bis zu dieser Stelle oder bin ich völlig auf dem Holzweg?
  • 2. Kann ich bei nominalen Merkmalen überhaupt eine Aussage über Signifikanz treffen bezüglich meiner abhängigen Variable?
    Und falls ja: Kann ich Aussagen über einzelne Ausprägungen treffen oder nur über das nominale Merkmal als ganzes bezüglich der abhängigen Variable?
  • 3. Wie kann ich in R wählen, welche Ausprägung als Referenz bestimmt wird?
    (Hab gelesen, dass die häufigste oder am wenigsten häufige Ausprägung Sinn machen würde, um die Interpretation zu vereinfachen, sofern keine Präferenz bezüglich einer Ausprägung besteht)
Vielen Dank vorab und viele Grüße
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Logistische Regression zur Überprüfung von MCAR

Beitrag von EDi »

Stimmen meine Gedankengänge und Ausführungen zur Überprüfung von MCAR bis zu dieser Stelle oder bin ich völlig auf dem Holzweg?
Erscheint mir logisch. Du sagts quasi die Wkeit für ein Fehlen anhand von Prädikatoren hervor.

Code: Alles auswählen

2. Kann ich bei nominalen Merkmalen überhaupt eine Aussage über Signifikanz treffen bezüglich meiner abhängigen Variable?
Und falls ja: Kann ich Aussagen über einzelne Ausprägungen treffen oder nur über das nominale Merkmal als ganzes bezüglich der abhängigen Variable?
Ja, z. B. ein Likelihood-Ratio Test gegen ein vereinfachtes Model (z. B.?drop1)
Wie kann ich in R wählen, welche Ausprägung als Referenz bestimmt wird?
Du kannst auch der Model anders parametrisieren und den Intercept rauslassen (+0 in der Modellformel), dann bekommst du die Gruppenmittel.
R nimmt, den ersten Faktorlevel als Referenz. Falls die nicht gesetzt sind, nimmt R ein alphabstische Reihenfolge. Kann man mit?factor ändern.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten