Lösung bei Verletzung der Linearitätsannahme im logistischen Regressionsmodell
Verfasst: Do Jan 07, 2021 5:39 pm
Hallo an alle,
ich habe ein Problem mit meiner logistischen Regression, die ich aufgestellt habe, und ich hoffe, dass mir jemand weiterhelfen kann.
Meine Daten basieren auf stündlichen Werten.
(Ich möchte einerseits eine logistische Regression über den gesamten Datensatz durchführen. Andererseits den Datensatz zu einem bestimmten Stichtag aufteilen und anschließend mit den aufgeteilten Datensätzen jeweils eine logistische Regression anwenden.)
Die abhängige Variable ist eine dichotome Variable (1 oder 0). Darüber hinaus beinhaltet das Modell 30 metrische unabhängige Variablen (9 davon haben sowohl positive als auch negative Beobachtungen).
Nun mein Problem:
Eine Annahme der logistischen Regression ist, dass eine Linearität des Logit zu den einzelnen unabhängigen metrischen Variablen besteht.
Diese Annahme wird leider in all meinen Modellen verletzt. (Alle anderen Annahmen der logistischen Regression werden nicht verletzt.)
Um das zu prüfen, habe ich mehrmals den Box-Tidwell-Test angewandt.
Einmal mit allen Variablen bei einer erneuten logistischen Regression, wobei ich die ursprüngliche abhängige Variable auf die unabhängigen Variablen und dem Produkt der unabhängigen Variablen mit der jeweiligen logarithmischen Transformation der unabhängigen Variablen regressiert habe.
(y ~ x1 + (x1*ln(x1)) + x2 + (x2*ln(x2)) + … , familiy = binomial(“logit“))
Dazu habe ich die Linearitätsannahme noch mit einer R-Funktion (boxTidwell(modell$linear.predictors ~ unabhängige Variable)) für jede Variable einzeln geprüft.
Bei fast allen Variablen zeigt der Test eine Signifikanz und somit eine Verletzung der Modellannahme.
Mehrere Transformationen der unabhängigen Variablen haben dabei auch nicht geholfen.
Zusätzlich haben meine Modelle den Hosmer-Lemeshow-Test nicht bestanden.
Ich weiß, dass ich die Annahme umgehen kann, wenn ich die metrischen unabhängigen Variablen in kategoriale Variablen umwandele. Dies möchte ich aber vermeiden.
Ich habe außerdem gelesen, dass ich dem Problem mit der Methodik von splines entgegnen kann. Nur konnte ich leider keine Literatur finden, in der dies erklärt wird. Erst recht nicht für eine logistische Modellschätzung. Dazu würde es mir ungemein helfen, wenn diese Erklärungen durch R-Codes unterstützt würden.
Nun würde ich gerne wissen, ob mir hier freundlicherweise jemand helfen kann.
Bedeutet eine Verletzung der Annahme, dass ich dieses Modell nicht verwenden darf und die Ergebnisse des Modells möglicherweise falsch sind?
(Ich möchte das Modell nicht als Vorhersage- oder Prognose-Modell verwenden, sondern lediglich zur Erklärung/Beschreibung innerhalb des Zeitraums der Daten.)
Wie wende ich die Methodik der sogenannten splines an, um mein Problem zu umgehen? Wie interpretiere ich die Ergebnisse?
Mir würde es enorm helfen, falls jemand gute Literatur zu diesem Thema kennt und diese mit mir teilt.
Über eine Antwort würde ich mich sehr freuen.
LG
ich habe ein Problem mit meiner logistischen Regression, die ich aufgestellt habe, und ich hoffe, dass mir jemand weiterhelfen kann.
Meine Daten basieren auf stündlichen Werten.
(Ich möchte einerseits eine logistische Regression über den gesamten Datensatz durchführen. Andererseits den Datensatz zu einem bestimmten Stichtag aufteilen und anschließend mit den aufgeteilten Datensätzen jeweils eine logistische Regression anwenden.)
Die abhängige Variable ist eine dichotome Variable (1 oder 0). Darüber hinaus beinhaltet das Modell 30 metrische unabhängige Variablen (9 davon haben sowohl positive als auch negative Beobachtungen).
Nun mein Problem:
Eine Annahme der logistischen Regression ist, dass eine Linearität des Logit zu den einzelnen unabhängigen metrischen Variablen besteht.
Diese Annahme wird leider in all meinen Modellen verletzt. (Alle anderen Annahmen der logistischen Regression werden nicht verletzt.)
Um das zu prüfen, habe ich mehrmals den Box-Tidwell-Test angewandt.
Einmal mit allen Variablen bei einer erneuten logistischen Regression, wobei ich die ursprüngliche abhängige Variable auf die unabhängigen Variablen und dem Produkt der unabhängigen Variablen mit der jeweiligen logarithmischen Transformation der unabhängigen Variablen regressiert habe.
(y ~ x1 + (x1*ln(x1)) + x2 + (x2*ln(x2)) + … , familiy = binomial(“logit“))
Dazu habe ich die Linearitätsannahme noch mit einer R-Funktion (boxTidwell(modell$linear.predictors ~ unabhängige Variable)) für jede Variable einzeln geprüft.
Bei fast allen Variablen zeigt der Test eine Signifikanz und somit eine Verletzung der Modellannahme.
Mehrere Transformationen der unabhängigen Variablen haben dabei auch nicht geholfen.
Zusätzlich haben meine Modelle den Hosmer-Lemeshow-Test nicht bestanden.
Ich weiß, dass ich die Annahme umgehen kann, wenn ich die metrischen unabhängigen Variablen in kategoriale Variablen umwandele. Dies möchte ich aber vermeiden.
Ich habe außerdem gelesen, dass ich dem Problem mit der Methodik von splines entgegnen kann. Nur konnte ich leider keine Literatur finden, in der dies erklärt wird. Erst recht nicht für eine logistische Modellschätzung. Dazu würde es mir ungemein helfen, wenn diese Erklärungen durch R-Codes unterstützt würden.
Nun würde ich gerne wissen, ob mir hier freundlicherweise jemand helfen kann.
Bedeutet eine Verletzung der Annahme, dass ich dieses Modell nicht verwenden darf und die Ergebnisse des Modells möglicherweise falsch sind?
(Ich möchte das Modell nicht als Vorhersage- oder Prognose-Modell verwenden, sondern lediglich zur Erklärung/Beschreibung innerhalb des Zeitraums der Daten.)
Wie wende ich die Methodik der sogenannten splines an, um mein Problem zu umgehen? Wie interpretiere ich die Ergebnisse?
Mir würde es enorm helfen, falls jemand gute Literatur zu diesem Thema kennt und diese mit mir teilt.
Über eine Antwort würde ich mich sehr freuen.
LG