Zero Inflated Regression: Aufteilung Testdaten notwendig?
Moderator: EDi
-
- Beiträge: 2
- Registriert: Di Okt 13, 2020 2:11 pm
Zero Inflated Regression: Aufteilung Testdaten notwendig?
Hallo!
In einem großen Datensatz habe ich viele erklärende/unabhängige Variablen mit diversen Datentypen (integer, numerical, factor).
Dazu habe ich eine abhängige Variable und möchte diese mit einem Regressionsmodell bestmöglich darstellen.
Die abhängige Variable ist binomial aber enthält sehr viele Null-Werte (ungefähr 80% sind Nullwerte). Mein Ansatz ist daher, eine Zero Inflated Regression zu machen.
Hat jemand Erfahrung damit? Ich habe gelesen, dass man den Datensatz dabei aufteilen muss in Testdaten. Ist das zwangsläufig so? Ich verstehe den Ansatz dahinter nicht ganz.
Danke für Eure Hilfe.
In einem großen Datensatz habe ich viele erklärende/unabhängige Variablen mit diversen Datentypen (integer, numerical, factor).
Dazu habe ich eine abhängige Variable und möchte diese mit einem Regressionsmodell bestmöglich darstellen.
Die abhängige Variable ist binomial aber enthält sehr viele Null-Werte (ungefähr 80% sind Nullwerte). Mein Ansatz ist daher, eine Zero Inflated Regression zu machen.
Hat jemand Erfahrung damit? Ich habe gelesen, dass man den Datensatz dabei aufteilen muss in Testdaten. Ist das zwangsläufig so? Ich verstehe den Ansatz dahinter nicht ganz.
Danke für Eure Hilfe.
Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?
Mit einer "zero inflated Poisson regression" bist Du hier auf der falschen Baustelle - man beachte das "Poisson" im Namen!
Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?
Naja, man kann auch eine ZINB (Zero inflated binomial) rechnen.
Ob du in training/test teilen willst, hängt auch davon ab was du mit dem Model anstellen willst.
Wenn es mal Vorhersagen auf neue ungesehen Daten liefern soll und du vielleicht auch noch aus deinen erklärenden Variablen was auswählst, dann würde ich unbedingt machen. (Sonst passt du das Model zu gut an deine Daten an, es taugt aber nichts für neue Daten).
Wenn es mehr in die explorative oder Inferenzrichtung geht (z erhöht wie wahrscheinlichkeit von y um z%), dann braucht es das nicht.
Ob du in training/test teilen willst, hängt auch davon ab was du mit dem Model anstellen willst.
Wenn es mal Vorhersagen auf neue ungesehen Daten liefern soll und du vielleicht auch noch aus deinen erklärenden Variablen was auswählst, dann würde ich unbedingt machen. (Sonst passt du das Model zu gut an deine Daten an, es taugt aber nichts für neue Daten).
Wenn es mehr in die explorative oder Inferenzrichtung geht (z erhöht wie wahrscheinlichkeit von y um z%), dann braucht es das nicht.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?
Was cool ist wenn ma die zero Inflation extra modelliert: Man bekommt die Wahrscheinlichkeit das ein Wert 0 ist und wie diese sich verändert.
Das ist zum Beispiel nützlich bei zensieren Daten (und hab ich so auch schon mal nützlich angewandt).
Das ist zum Beispiel nützlich bei zensieren Daten (und hab ich so auch schon mal nützlich angewandt).
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?
Meinst Du eine "Zero Inflated Negative Binomial Regression"?Naja, man kann auch eine ZINB (Zero inflated binomial) rechnen.
Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?
Du wirst Dir da schon Deine Gedanken gemacht haben. Aber nur weil bei einer binomialen Abhängigen viele Nullwerte dabei sind ist sie ja noch nicht zero-inflated. Vielleicht ist bei häufigen Prädiktor-Konstellationen auch einfach die Wahrscheinlichkeit sehr klein. Das heißt nicht, dass Du keine zero-inflated-binomial Regression rechnen sollst. Nur die gegebene Begründung würde mir persönlich dafür noch nicht reichen.Quarantäne hat geschrieben: ↑Di Okt 13, 2020 3:22 pmDie abhängige Variable ist binomial aber enthält sehr viele Null-Werte (ungefähr 80% sind Nullwerte). Mein Ansatz ist daher, eine Zero Inflated Regression zu machen.
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?
Ich verkaufe ein N
Ja, kommt auf die Daten an. Man kann aber die zwei Modelle (einmal mit und einmal ohne) vergleichen um zu schauen was die ZI bringt...Das heißt nicht, dass Du keine zero-inflated-binomial Regression rechnen sollst. Nur die gegebene Begründung würde mir persönlich dafür noch nicht reichen.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?
Btw: Man kann das z.b. mit gamlss rechnen https://rdrr.io/github/Stan125/gamlss.d ... /ZABI.html
Oder mit glmmadmb rechnen.
Oder mit glmmadmb rechnen.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?
Das erinnert mich an https://youtu.be/uUV3KvnvT-w
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte