Zero Inflated Regression: Aufteilung Testdaten notwendig?

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

Antworten
Quarantäne
Beiträge: 2
Registriert: Di Okt 13, 2020 2:11 pm

Zero Inflated Regression: Aufteilung Testdaten notwendig?

Beitrag von Quarantäne »

Hallo!

In einem großen Datensatz habe ich viele erklärende/unabhängige Variablen mit diversen Datentypen (integer, numerical, factor).

Dazu habe ich eine abhängige Variable und möchte diese mit einem Regressionsmodell bestmöglich darstellen.

Die abhängige Variable ist binomial aber enthält sehr viele Null-Werte (ungefähr 80% sind Nullwerte). Mein Ansatz ist daher, eine Zero Inflated Regression zu machen.
Hat jemand Erfahrung damit? Ich habe gelesen, dass man den Datensatz dabei aufteilen muss in Testdaten. Ist das zwangsläufig so? Ich verstehe den Ansatz dahinter nicht ganz.

Danke für Eure Hilfe.
Athomas
Beiträge: 769
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Beitrag von Athomas »

Mit einer "zero inflated Poisson regression" bist Du hier auf der falschen Baustelle - man beachte das "Poisson" im Namen!
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Beitrag von EDi »

Naja, man kann auch eine ZINB (Zero inflated binomial) rechnen.

Ob du in training/test teilen willst, hängt auch davon ab was du mit dem Model anstellen willst.

Wenn es mal Vorhersagen auf neue ungesehen Daten liefern soll und du vielleicht auch noch aus deinen erklärenden Variablen was auswählst, dann würde ich unbedingt machen. (Sonst passt du das Model zu gut an deine Daten an, es taugt aber nichts für neue Daten).

Wenn es mehr in die explorative oder Inferenzrichtung geht (z erhöht wie wahrscheinlichkeit von y um z%), dann braucht es das nicht.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Beitrag von EDi »

Was cool ist wenn ma die zero Inflation extra modelliert: Man bekommt die Wahrscheinlichkeit das ein Wert 0 ist und wie diese sich verändert.

Das ist zum Beispiel nützlich bei zensieren Daten (und hab ich so auch schon mal nützlich angewandt).
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Athomas
Beiträge: 769
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Beitrag von Athomas »

Naja, man kann auch eine ZINB (Zero inflated binomial) rechnen.
Meinst Du eine "Zero Inflated Negative Binomial Regression"?
bigben
Beiträge: 2778
Registriert: Mi Okt 12, 2016 9:09 am

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Beitrag von bigben »

Quarantäne hat geschrieben: Di Okt 13, 2020 3:22 pmDie abhängige Variable ist binomial aber enthält sehr viele Null-Werte (ungefähr 80% sind Nullwerte). Mein Ansatz ist daher, eine Zero Inflated Regression zu machen.
Du wirst Dir da schon Deine Gedanken gemacht haben. Aber nur weil bei einer binomialen Abhängigen viele Nullwerte dabei sind ist sie ja noch nicht zero-inflated. Vielleicht ist bei häufigen Prädiktor-Konstellationen auch einfach die Wahrscheinlichkeit sehr klein. Das heißt nicht, dass Du keine zero-inflated-binomial Regression rechnen sollst. Nur die gegebene Begründung würde mir persönlich dafür noch nicht reichen.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Beitrag von EDi »

Athomas hat geschrieben: Di Okt 13, 2020 5:29 pm
Naja, man kann auch eine ZINB (Zero inflated binomial) rechnen.
Meinst Du eine "Zero Inflated Negative Binomial Regression"?
Ich verkaufe ein N ;)
Das heißt nicht, dass Du keine zero-inflated-binomial Regression rechnen sollst. Nur die gegebene Begründung würde mir persönlich dafür noch nicht reichen.
Ja, kommt auf die Daten an. Man kann aber die zwei Modelle (einmal mit und einmal ohne) vergleichen um zu schauen was die ZI bringt...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Beitrag von EDi »

Btw: Man kann das z.b. mit gamlss rechnen https://rdrr.io/github/Stan125/gamlss.d ... /ZABI.html

Oder mit glmmadmb rechnen.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2778
Registriert: Mi Okt 12, 2016 9:09 am

Re: Zero Inflated Regression: Aufteilung Testdaten notwendig?

Beitrag von bigben »

Das erinnert mich an https://youtu.be/uUV3KvnvT-w
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten