Seite 1 von 1

Zero Inflated Regression: Aufteilung Testdaten notwendig?

Verfasst: Di Okt 13, 2020 3:22 pm
von Quarantäne
Hallo!

In einem großen Datensatz habe ich viele erklärende/unabhängige Variablen mit diversen Datentypen (integer, numerical, factor).

Dazu habe ich eine abhängige Variable und möchte diese mit einem Regressionsmodell bestmöglich darstellen.

Die abhängige Variable ist binomial aber enthält sehr viele Null-Werte (ungefähr 80% sind Nullwerte). Mein Ansatz ist daher, eine Zero Inflated Regression zu machen.
Hat jemand Erfahrung damit? Ich habe gelesen, dass man den Datensatz dabei aufteilen muss in Testdaten. Ist das zwangsläufig so? Ich verstehe den Ansatz dahinter nicht ganz.

Danke für Eure Hilfe.

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Verfasst: Di Okt 13, 2020 4:26 pm
von Athomas
Mit einer "zero inflated Poisson regression" bist Du hier auf der falschen Baustelle - man beachte das "Poisson" im Namen!

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Verfasst: Di Okt 13, 2020 5:16 pm
von EDi
Naja, man kann auch eine ZINB (Zero inflated binomial) rechnen.

Ob du in training/test teilen willst, hängt auch davon ab was du mit dem Model anstellen willst.

Wenn es mal Vorhersagen auf neue ungesehen Daten liefern soll und du vielleicht auch noch aus deinen erklärenden Variablen was auswählst, dann würde ich unbedingt machen. (Sonst passt du das Model zu gut an deine Daten an, es taugt aber nichts für neue Daten).

Wenn es mehr in die explorative oder Inferenzrichtung geht (z erhöht wie wahrscheinlichkeit von y um z%), dann braucht es das nicht.

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Verfasst: Di Okt 13, 2020 5:19 pm
von EDi
Was cool ist wenn ma die zero Inflation extra modelliert: Man bekommt die Wahrscheinlichkeit das ein Wert 0 ist und wie diese sich verändert.

Das ist zum Beispiel nützlich bei zensieren Daten (und hab ich so auch schon mal nützlich angewandt).

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Verfasst: Di Okt 13, 2020 5:29 pm
von Athomas
Naja, man kann auch eine ZINB (Zero inflated binomial) rechnen.
Meinst Du eine "Zero Inflated Negative Binomial Regression"?

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Verfasst: Di Okt 13, 2020 5:32 pm
von bigben
Quarantäne hat geschrieben: Di Okt 13, 2020 3:22 pmDie abhängige Variable ist binomial aber enthält sehr viele Null-Werte (ungefähr 80% sind Nullwerte). Mein Ansatz ist daher, eine Zero Inflated Regression zu machen.
Du wirst Dir da schon Deine Gedanken gemacht haben. Aber nur weil bei einer binomialen Abhängigen viele Nullwerte dabei sind ist sie ja noch nicht zero-inflated. Vielleicht ist bei häufigen Prädiktor-Konstellationen auch einfach die Wahrscheinlichkeit sehr klein. Das heißt nicht, dass Du keine zero-inflated-binomial Regression rechnen sollst. Nur die gegebene Begründung würde mir persönlich dafür noch nicht reichen.

LG,
Bernhard

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Verfasst: Di Okt 13, 2020 5:59 pm
von EDi
Athomas hat geschrieben: Di Okt 13, 2020 5:29 pm
Naja, man kann auch eine ZINB (Zero inflated binomial) rechnen.
Meinst Du eine "Zero Inflated Negative Binomial Regression"?
Ich verkaufe ein N ;)
Das heißt nicht, dass Du keine zero-inflated-binomial Regression rechnen sollst. Nur die gegebene Begründung würde mir persönlich dafür noch nicht reichen.
Ja, kommt auf die Daten an. Man kann aber die zwei Modelle (einmal mit und einmal ohne) vergleichen um zu schauen was die ZI bringt...

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Verfasst: Di Okt 13, 2020 6:04 pm
von EDi
Btw: Man kann das z.b. mit gamlss rechnen https://rdrr.io/github/Stan125/gamlss.d ... /ZABI.html

Oder mit glmmadmb rechnen.

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Verfasst: Di Okt 13, 2020 6:38 pm
von bigben
Das erinnert mich an https://youtu.be/uUV3KvnvT-w