Poisson-Regression - Ist das so sinnvoll?
Verfasst: Di Apr 03, 2018 12:56 pm
Hallo ihr,
ich habe relativ wenig Ahnung von Statistik und wurde gerade von meinem Betreuer, der den Teil eigentlich für mich übernehmen wollte, im Stich gelassen.
Ich möchte die Auswirkungen verschiedener Variablen auf L_max (s.Anhang) untersuchen. Es ist nichts normalverteilt und es handelt sich um mehrere unabhängige Variablen, weshalb ich eine Poisson-Regression angewendet habe. Ein paar Variablen habe ich gleich raus gelassen, weil sie nicht besonders aussagekräftig/wichtig waren, und mit dem Rest eine Rückwärtseliminierung durchgeführt, bei der ich mich am AIC bzw. Pr(>IzI) orientierte.
Das Skript sieht folgendermaßen aus:
ze<-read.table("ZE_neu2.xlsx",header=T,sep=";", row.names=1)
attach(ze)
# WD_xx_xx und WE_xx_xx sind Zeitfenster am Wochenende und unter der Woche
test<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_12_30_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_12_30_pc+WE_15_pc+WE_17_30_pc,family=poisson())
summary(test)
test1<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_12_30_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_12_30_pc+WE_17_30_pc,family=poisson())
summary(test1)
test2<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_12_30_pc+WE_17_30_pc,family=poisson())
summary(test2)
test3<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_17_30_pc,family=poisson())
summary(test3)
test4<-glm(L_max~struc_mid+Impair_mid+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_17_30_pc,family=poisson())
summary(test4)
test5<-glm(L_max~struc_mid+Impair_mid+sealing500+INDEXdognew+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_17_30_pc,family=poisson())
summary(test5)
Meine Fragen sind jetzt:
1. Ist das bei diesem Datensatz sinnvoll? Würdet ihr das auch so machen? (Poisson, Rückwärtseliminierung, Variablenauswahl [mein Betr. meinte, ich solle die Variablen, die hoch miteinander korrelieren auf jew. eine reduzieren, jedoch hätte ich irgendwie schon gern die Zeitfenster mit drin, sofern sie nicht alles verfälschen])
2. Was sagen mir die Ergebnisse? Also mir ist bewusst, dass struc_mid eine größere Auswirkung als INDEXdognew hat, aber bis wohin können denn die Estimate-Werte gehen? Ist 4 bzw. 6 schon sehr hoch? Und was zählt mehr? 4** oder 6*?
3. Sind der Standardfehler und z-Wert für mich von Bedeutung?
4. R schreibt immer nach den glm:
(24 observations deleted due to missingness)
Wird da die gesamte Fläche mit allen Parametern aus der Berechnung entfernt, oder nur die einzelnen Parameter für die jeweilige Fläche? Weil n=56 ja viel besser wäre als n=32...
Ich hoffe, ich mache mich hier nicht komplett zum Ei. Wie gesagt, bis heute hatte ich gedacht, ich muss das nicht allein machen und Freitag soll die komplette Arbeit stehen.
Wenn ihr meine Fragen nicht versteht, fragt gern noch einmal nach.
Liebe Grüße und vielen Dank schon einmal!
Julla
ich habe relativ wenig Ahnung von Statistik und wurde gerade von meinem Betreuer, der den Teil eigentlich für mich übernehmen wollte, im Stich gelassen.
Ich möchte die Auswirkungen verschiedener Variablen auf L_max (s.Anhang) untersuchen. Es ist nichts normalverteilt und es handelt sich um mehrere unabhängige Variablen, weshalb ich eine Poisson-Regression angewendet habe. Ein paar Variablen habe ich gleich raus gelassen, weil sie nicht besonders aussagekräftig/wichtig waren, und mit dem Rest eine Rückwärtseliminierung durchgeführt, bei der ich mich am AIC bzw. Pr(>IzI) orientierte.
Das Skript sieht folgendermaßen aus:
ze<-read.table("ZE_neu2.xlsx",header=T,sep=";", row.names=1)
attach(ze)
# WD_xx_xx und WE_xx_xx sind Zeitfenster am Wochenende und unter der Woche
test<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_12_30_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_12_30_pc+WE_15_pc+WE_17_30_pc,family=poisson())
summary(test)
test1<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_12_30_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_12_30_pc+WE_17_30_pc,family=poisson())
summary(test1)
test2<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_12_30_pc+WE_17_30_pc,family=poisson())
summary(test2)
test3<-glm(L_max~struc_mid+Impair_mid+age+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_17_30_pc,family=poisson())
summary(test3)
test4<-glm(L_max~struc_mid+Impair_mid+sealing500+INDEXdognew+wl_index+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_17_30_pc,family=poisson())
summary(test4)
test5<-glm(L_max~struc_mid+Impair_mid+sealing500+INDEXdognew+WD_07_30_pc+WD_10_pc+WD_15_pc+WD_17_30_pc+WE_7_30_pc+WE_10_pc+WE_17_30_pc,family=poisson())
summary(test5)
Meine Fragen sind jetzt:
1. Ist das bei diesem Datensatz sinnvoll? Würdet ihr das auch so machen? (Poisson, Rückwärtseliminierung, Variablenauswahl [mein Betr. meinte, ich solle die Variablen, die hoch miteinander korrelieren auf jew. eine reduzieren, jedoch hätte ich irgendwie schon gern die Zeitfenster mit drin, sofern sie nicht alles verfälschen])
2. Was sagen mir die Ergebnisse? Also mir ist bewusst, dass struc_mid eine größere Auswirkung als INDEXdognew hat, aber bis wohin können denn die Estimate-Werte gehen? Ist 4 bzw. 6 schon sehr hoch? Und was zählt mehr? 4** oder 6*?
3. Sind der Standardfehler und z-Wert für mich von Bedeutung?
4. R schreibt immer nach den glm:
(24 observations deleted due to missingness)
Wird da die gesamte Fläche mit allen Parametern aus der Berechnung entfernt, oder nur die einzelnen Parameter für die jeweilige Fläche? Weil n=56 ja viel besser wäre als n=32...
Ich hoffe, ich mache mich hier nicht komplett zum Ei. Wie gesagt, bis heute hatte ich gedacht, ich muss das nicht allein machen und Freitag soll die komplette Arbeit stehen.
Wenn ihr meine Fragen nicht versteht, fragt gern noch einmal nach.
Liebe Grüße und vielen Dank schon einmal!
Julla