Methodenwahl: Prädiktor signifikant?

Beitrag von **bigben** » Mi Sep 16, 2020 9:42 am

Hallo!

Mir wurden Daten angekündigt, die ich auswerten darf und zwar solche, die ich nach Gusto auswerten darf.

Aufgabenstellung wie folgt: Es gibt 150 < n < 200 Menschen, die entweder die Krankheit A oder die Krankheit B haben. Die Krankheiten sind nur aufwändig voneinander zu unterscheiden sind und beide unzureichend verstanden, aber für jeden hier eindeutig bestimmt. Zu jedem Menschen gibt es Blutkonzentrationsmessungen eines "neuen" Moleküls im Blut, das mit der Unterscheidung beider Parameter zu tun haben kann. Die Frage ist, ob dieser Parameter etwas zur Unterscheidung beider Parameter beitragen kann. Es wird ca eine Handvoll, vielleicht auch zwei Handvoll Kontrollvariablen wie Alter, Geschlecht, Blutwerte, etc. geben, wahrscheinlich eher keine ausgeprägte Kollinearität.

Weil das Medizin ist sind wahrhaft lineare Zusammenhänge unwahrscheinlich und weil das Medizin ist wird es trotzdem eine Auswertung ganz traditionell/konservativ mit logistischer Regression geben.

Ich hätte halt Spaß daran, dieselbe Frage auch mit einem ML-Verfahren, beispielsweise mit einem randomForest anzugehen, aber am Schluss wird man von mir ja eine dichotome Entscheidung erwarten, ob ein Zusammenhang nachweisbar ist, oder nicht. Eine erste, zugegeben noch oberflächliche Beschäftigung mit randomForests ergibt, dass für jeden Parameter/Feature/Unabhängige ein Importance Maß bestimmt wird. Gibt es einen eingefahrenen, akzeptierten Weg, daraus einen p-Wert zu machen? Nicht ein Maß der Bedeutung, sondern einen Test für die Bedeutung in der Grundgesamtheit?

Es dauert noch ein bisschen, bis die Daten kommen, daher hätte ich noch etwas Zeit, mich mit Verfahren zu beschäftigen, die ich noch nicht kenne, wie z. B. GAMs. Ich habe aber nicht genug Zeit, mich in alle verfügbaren Klassifikationsmodelle gleichermaßen mit Tiefgang einzuarbeiten.

Frage: Im gegebenen Rahmen von 150 bis 200 Beobachtungen, dichotomer AV und fünf bis zehn UV, welches Verfahren würdet Ihr wählen um zu zeigen, dass eine bestimmte UV signifikanten Einfluss hat und warum?

R-Bezug: Es kommen nur Methoden infrage, die es auf CRAN gibt. Pakete mit guten Vignetten stark bevorzugt.

Beste Grüße,
Bernhard

Beitrag von **EDi** » Mi Sep 16, 2020 6:31 pm

Logistische regression zusammen mit lasso/ridge/elastisch ?

Du hast du Feature Selektion mit drin, nutzen Maschine learning (den Lambda Parameter muss man tunen) bekommst aber ein glm raus, wo du am Ende Likelihood-Ratio-Test der Koeffizienten drauf anwenden kannst.

Beitrag von **EDi** » Mi Sep 16, 2020 6:36 pm

Gibt es einen eingefahrenen, akzeptierten Weg, daraus einen p-Wert zu machen?

Permutationstest gehen immer (dauert aber etwas)

1000 permutation erstellen, für jede permutation ein RF fitten und die VarImp Speichern.

Aus der Verteilung der VarImp einen p-Wert ableiten.
Z.b. H0: VarImp == 0, zählen wie oft VarImp größer 0 und durch 1000 teilen.

Beitrag von **EDi** » Mi Sep 16, 2020 6:39 pm

Bei 5-10 UV kann man auch alle Möglichen Modelle rechnen und das beste (min AIC) nehmen.

Das kann man dann auch variieren: Z.B. wenn es kein eindeutig bestes model gibt: Model averaging.

Oder nur die Modelle betrachten die eine bestimmte UV beinhalten (wäre quasi Vorwissen nutzen). Trotzdem würde ich da nochmal gegenchecken, ob das Vorwissen passt.

Beitrag von **bigben** » Do Sep 17, 2020 1:27 pm

Hallo EDi,

vielen Dank für gleich drei Antworten. Mal sehen:

Logistische regression zusammen mit lasso/ridge/elastisch ?

Du hast du Feature Selektion mit drin

Zuerst habe ich gedacht, das geht an meiner Frage vorbei, weil ich ja gar keine Feature Selektion machen wollte: Ich habe deutlich mehr als zehnmal soviele Beobachtungen wie Prädiktoren und die wollte ich as Kontrollvariablen im Abschlussmodell auch drin lassen. Über Deinen Vorschlag nachdenkend erwäge ich jetzt, einen Interaktionsterm für jede meiner Kontrollvariablen mit den neuen Molekül mit ins Modell zu nehmen. Wenn Lasso sie dann rauswirft, ist nichts verloren aber wenn es Interaktionen gäbe, wäre das eine Chance, sie zu entdecken. Das hatte ich vielleicht zu schnell verworfen, weil ich ja eigentlich vom linearen Zusammenhang weg wollte.

Permutationstest gehen immer (dauert aber etwas)

Stimmt, Monte Carlo geht immer. Wäre etwas komisch, wenn es ein etablierteres Verfahren dafür RF gäbe, aber machbar ist ganz sicher. Ob man dann prüft, ob die Importance größer Null ist oder vielleicht doch, dass das Modell mit diesem Parameter besser vorhersagt als mit einem permutierten Parameter, das kann ich mir dann ja noch überlegen.

Bei 5-10 UV kann man auch alle Möglichen Modelle rechnen und das beste (min AIC) nehmen.

Das kann man dann auch variieren: Z.B. wenn es kein eindeutig bestes model gibt: Model averaging.

So würde ich das sehen und machen, wenn es mir um ein Modell mit möglichst guter Vorhersagekraft ginge. Als Endziel will ich aber kein Modell, sondern einen niedrigen p-Wert. Da gilt es gemeinhin als unzulässig, einfach alle möglichen Tests durchzuprobieren, bis einem die p-Werte gefallen. Analog würde ich auch hier gerne mit einem klaren Auswertungskonzept in die Geschichte reingehen. Vielleicht ist das auch übervorsichtig?

Beste Grüße,
Bernhard

Deutsches R-Forum

Methodenwahl: Prädiktor signifikant?

Methodenwahl: Prädiktor signifikant?

Re: Methodenwahl: Prädiktor signifikant?

Re: Methodenwahl: Prädiktor signifikant?

Re: Methodenwahl: Prädiktor signifikant?

Re: Methodenwahl: Prädiktor signifikant?