Poisson-Regression - Ist das so sinnvoll?

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

Antworten
diejulla

Poisson-Regression - Ist das so sinnvoll?

Beitrag von diejulla »

Hallo ihr,
ich habe relativ wenig Ahnung von Statistik und wurde gerade von meinem Betreuer, der den Teil eigentlich für mich übernehmen wollte, im Stich gelassen.
Ich möchte die Auswirkungen verschiedener Variablen auf L_max (s.Anhang) untersuchen. Es ist nichts normalverteilt und es handelt sich um mehrere unabhängige Variablen, weshalb ich eine Poisson-Regression angewendet habe. Ein paar Variablen habe ich gleich raus gelassen, weil sie nicht besonders aussagekräftig/wichtig waren, und mit dem Rest eine Rückwärtseliminierung durchgeführt, bei der ich mich am AIC bzw. Pr(>IzI) orientierte.

Das Skript sieht folgendermaßen aus:
ze<-read.table("ZE_neu2.xlsx",header=T,sep=";", row.names=1)
attach(ze)
# WD_xx_xx und WE_xx_xx sind Zeitfenster am Wochenende und unter der Woche
test<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_12_30_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_12_30_pc+WE_15_pc+WE_17_30_pc,family=poisson())
summary(test)

test1<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_12_30_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_12_30_pc+WE_17_30_pc,family=poisson())
summary(test1)

test2<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_12_30_pc+WE_17_30_pc,family=poisson())
summary(test2)

test3<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_17_30_pc,family=poisson())
summary(test3)

test4<-glm(L_max~struc_mid+Impair_mid+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_17_30_pc,family=poisson())
summary(test4)

test5<-glm(L_max~struc_mid+Impair_mid+sealing500+INDEXdognew+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_17_30_pc,family=poisson())
summary(test5)


Meine Fragen sind jetzt:
1. Ist das bei diesem Datensatz sinnvoll? Würdet ihr das auch so machen? (Poisson, Rückwärtseliminierung, Variablenauswahl [mein Betr. meinte, ich solle die Variablen, die hoch miteinander korrelieren auf jew. eine reduzieren, jedoch hätte ich irgendwie schon gern die Zeitfenster mit drin, sofern sie nicht alles verfälschen])

2. Was sagen mir die Ergebnisse? Also mir ist bewusst, dass struc_mid eine größere Auswirkung als INDEXdognew hat, aber bis wohin können denn die Estimate-Werte gehen? Ist 4 bzw. 6 schon sehr hoch? Und was zählt mehr? 4** oder 6*?

3. Sind der Standardfehler und z-Wert für mich von Bedeutung?

4. R schreibt immer nach den glm:
(24 observations deleted due to missingness)
Wird da die gesamte Fläche mit allen Parametern aus der Berechnung entfernt, oder nur die einzelnen Parameter für die jeweilige Fläche? Weil n=56 ja viel besser wäre als n=32...

Ich hoffe, ich mache mich hier nicht komplett zum Ei. Wie gesagt, bis heute hatte ich gedacht, ich muss das nicht allein machen und Freitag soll die komplette Arbeit stehen.
Wenn ihr meine Fragen nicht versteht, fragt gern noch einmal nach.

Liebe Grüße und vielen Dank schon einmal!
Julla
Dateianhänge
ZE_neu2.xlsx
(17.27 KiB) 84-mal heruntergeladen
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Poisson-Regression - Ist das so sinnvoll?

Beitrag von EDi »

Ist das bei diesem Datensatz sinnvoll? Würdet ihr das auch so machen? (Poisson, Rückwärtseliminierung, Variablenauswahl [mein Betr. meinte, ich solle die Variablen, die hoch miteinander korrelieren auf jew. eine reduzieren, jedoch hätte ich irgendwie schon gern die Zeitfenster mit drin, sofern sie nicht alles verfälschen])
Kommt auf die Daten und die Frage/Zielvorstellung an:
Was ist L_max? Macht die Poissonverteilung Sinn hier (=Zähldaten)? Ich habe noch nie ein Poisson-GLM gesehen das gepasst hat (in der Ökologie), oft ist die Varianz >> Mittelwert.

Warum die backward-elimination? Wenn dann würde ich mich eher am AIC orientieren, denn am p-Wert (obwohl beide eigentlich das gleiche sind).

Korrelierte Variable vorher rauswerfen macht Sinn (das Model wird stabiler, fehler können akkurater geschätzt werden). Hier würde ich fachliches Vorwissen mit einbeziehen.
Was sagen mir die Ergebnisse? Also mir ist bewusst, dass struc_mid eine größere Auswirkung als INDEXdognew hat, aber bis wohin können denn die Estimate-Werte gehen? Ist 4 bzw. 6 schon sehr hoch? Und was zählt mehr? 4** oder 6*?
Sternchen haben einen Informationghalt der gegen 0 tendiert. Die Estimates sidn wichtiger.
Die Estimates haben keine Schranken, allerdings solltest du dir mal das Model als Formel anschauen (mal auf ein Blatt aufschreiben, irgendwas mit y = exp(a + b1x + b2x +...), dann siehst du das große Zahlen schnell sehrsehr große y erzeugen.
3. Sind der Standardfehler und z-Wert für mich von Bedeutung?
Für mich ist das mit am wichtigsten (Mittelwerte berechnen ist ja keine Kunst, Fehler hingegen schon). Mittelwert + Fehler ist das was ich am wichtigesten.
4. R schreibt immer nach den glm:
(24 observations deleted due to missingness)
Wird da die gesamte Fläche mit allen Parametern aus der Berechnung entfernt, oder nur die einzelnen Parameter für die jeweilige Fläche? Weil n=56 ja viel besser wäre als n=32...
Nein, es wird zeilenweise eleminiert (siehe na.action in ?glm). Wenn du das nicht willst, könntest du die variablen mit NA weglassen oder die NAs imputieren.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
diejulla

Re: Poisson-Regression - Ist das so sinnvoll?

Beitrag von diejulla »

Hallo EDi,
vielen Dank für deine Antwort!
EDi hat geschrieben: Di Apr 03, 2018 3:21 pmWas ist L_max?

L_max sind gezählte Eidechsen auf einer Fläche. Etwas weniger als die Hälfte ist hier 0, dann gibt es mehrere Einsen und Zweien, ein paar Dreien und wenige Vieren und Fünfen.
In meinem Buch steht, dass Poisson dann Sinn macht, wenn man die "Abhängigkeit einer Zählvariablen von einer oder mehreren erklärenden Variablen " modellieren will. Ich fand, das hat ganz gut gepasst. Wenn ich das falsch interpretiert habe, welche Regression wäre dann sinnvoll?
EDi hat geschrieben: Di Apr 03, 2018 3:21 pm Warum die backward-elimination? Wenn dann würde ich mich eher am AIC orientieren, denn am p-Wert
Ich fand es halt ziemlich viele Variablen. Und in dem einen Statistikkurs, den ich mal vor x Jahren hatte, wurde gesagt, dass man das bei Regressionen so macht, bis der AIC nicht mehr besser wird. Daran habe ich mich halt orientiert, ob ich noch einen Durchgang mache. Und welche Variable ich wegnehme, habe ich eben anhand des Pr(>IzI) entschieden. Im Laufe dieses Prozesses, wurden die signifikantesten Variablen immer signifikanter. Den Effekt fand ich ganz gut. Du nicht so? :?
EDi hat geschrieben: Di Apr 03, 2018 3:21 pm Wenn du das nicht willst, könntest du die variablen mit NA weglassen oder die NAs imputieren
Soweit ich diese Imputation verstehe, errechnet sich R die Werte anhand einer log. Regression...Das setzt ja dann schon gewisse Zusammenhänge voraus?!
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Poisson-Regression - Ist das so sinnvoll?

Beitrag von EDi »

Ich fand, das hat ganz gut gepasst.
Soweit korrekt.
Poisson nimmt an, dass Mittelwert = Varianz ist. Bitte prüfen ob diese Annahme zu Deinen Daten passt (sonst gibt's einen zu hohen Fehler erster Art).
die Werte anhand einer log. Regression...
Ist mir nicht geläufig. Mean-Imputation wäre das einfachste. Wenn man Zusammenhänge zu anderen Variablen herstellen kann, ist das auch eine Methode.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten