GLM - p-value in Funktion schreiben

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

Antworten
Jess1899

GLM - p-value in Funktion schreiben

Beitrag von Jess1899 »

Hallo ihr Lieben,

leider weiß ich selbst nicht mehr weiter und hoffe hier neue Anregungen und Ideen zu finden. Zu meinem Problem:

Ich habe einen Datensatz, der mehrere Pflanzenarten an diversen Standorten enthält. Nun habe ich erstmal eine Art ausgewählt und ein GLM (generalized linear model) berechnet und so oft ein Subset durchgeführt, bis ich das perfekte signifikante Model hatte. Nun möchte ich eine Funktion schreiben, mit der eine beliebige Art ausgewählt wird und dann unter anderem auch jeweils ein GLM berechnet wird. Dieser Pr(>|z|) Wert muss ja immer kleiner 0,05 sein, gibt es eine Möglichkeit, dass ich eine Funktion schreibe, in der sooft ein Subset durchgeführt wird (absteigend, also beginnend mit dem größten p-value) bis alle p-values unter 0,05 liegen?

Vielen Dank vorab =)
bigben
Beiträge: 2780
Registriert: Mi Okt 12, 2016 9:09 am

Re: GLM - p-value in Funktion schreiben

Beitrag von bigben »

Hallo Jess,

ich bin nicht sicher, ob ich Deine Frage richtig verstehe. Insbesondere, was Du mit subset meinst. Ich vermute, dass Du einen schrittweisen Ausschluss von Prädiktoren meinst, um ein "optimales" Modell zu finden. Der schrittweise Ein- oder Ausschluss von Prädiktoren in Modelle ist ein gefährliches Verfahren das regelmäßig zur Überanpassung an das Sample führt. Deshalb habe ich auch keine persönliche Erfahrung damit.

Vielleicht magst Du Dir die Funktion step anschauen, vielleicht auf CRAn das package AutoStepwiseGLM mit der Funktion backwd_stepwise_glm
Vielleicht auch im Paket RCmdr die Funktion stepwise

Sollte ich Deinen Post falsch gedeutet haben erklär bitte nochmal, was Du unter einem subset verstehst.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: GLM - p-value in Funktion schreiben

Beitrag von EDi »

Wenn man das wirklich machen will (ich rate wie bigben stark davon ab), kann man auch er brute-force alle Modelle rechnen und das `beste' (nach seinem selbst gewählten Kriterium) auswählen, siehe MuMIn::dredge() um dass einfach zu machen und z. B. den AIC als Kriterium zu nutzen.

Besser ist es aber, anstatt unmotiviert im Dreck zu wühlen, sein Domänenwissen zu nutzen um ein passendes Modell zu wählen.
BTW. p-Werte haben IMo einen Informationsgehalt von ca. 0.05 ;)).
Wenn man das macht kommt man auch sehr schnell über den parametrischen bootstrap zur bayesianischen Statistik wo man dieses Domänenwissen formalisieren kann.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten