Logistische Regression

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

MR-93

Logistische Regression

Beitrag von MR-93 »

Hallo zusammen,

ich hoffe, dass ich hier etwas Hilfe finden kann.

Ich habe einen Datensatz (Kundendaten) und 6 logistische Regressionen durchgeführt, mit 6 unterschiedlichen abhängigen Variabeln.
Die erklärenden Variablen (8 an der Zahl) sind in jeder Regression durch selben.
Das Ziel ist es zu schauen, welche abhängige Variable mit den unabhängigen Variablen am besten erklärt werden kann. Die Ergbnisse, in Bezug auf die Signifikanz, sehen recht gut aus. Nun möchte ich eine Aussage darüber treffen, welches Modell das "beste" ist. Wie kann ich das am besten umsetzen?

Komischerweise ist es so, dass das AIC in derjenigen Regression am kleinsten ist, in der die geringsten Signifikanzen festgestellt werden konnten :shock:

Vielleicht hat ja jemand von euch eine gute Idee!? :-)
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Logistische Regression

Beitrag von bigben »

Hallo MR-93,

ich hab keine Ahnung, was es bedeutet, wenn etwas "in Bezug auf die Signifikanz recht gut aussieht". Auch fehlen kleine Details wie Stichprobenumfang und Skalenniveau der abhängigen Variablen (sind das binäre Daten oder metrische zwischen 0 und 1) und was geringste Signifikanzen sein sollen, bleibt unklar. Bei SPSS-Usern heißt der p-Wert oft Signifikanz. Vielleicht meinst Du also das Modell mit den kleinsten p-Werten? Vielleicht meinst Du aber auch, dass die geringste Zahl von Prädiktoren signifikant wird? Vielleicht meinst Du aber auch, dass etwas umso signifikanter sei, je kleiner der p-Wert ist. Der Satz ist also nicht wirklich verständlich.

Ich versuche mich trotzdem mal an einer Antwort: glm gibt Dir regelhaft die residual deviance und den AIC aus. Beides dürfte in der Regel geeigneter sein, die Passung zu beschreiben als irgendwelche p-Werte.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
MR-93

Re: Logistische Regression

Beitrag von MR-93 »

Hallo Bernhard,

erstmal vielen Dank für deine Antwort. Du hast Recht, da habe ich wohl ein paar Details unter den Tisch fallen lassen.
Vielleicht kann ich mein Problem anhand von zwei Regressionen besser erklären:

Die beiden abhängigen Variablen sind reine 0/1 Entscheidungen. Y1: der Kunde hat ein Vorsorgeprodukt (=1) bzw. hat keins (=0) und Y2: der Kunde hat einen Bausparvertrag (=1) bzw. er hat keinen (=0).
Der Datensatz umfasst ingesamt 4000 Kunden. Für beide logitischen Regressionen sind es die selben 8 erklärenden Variablen (auch binäre darunter): Alter, Einkommen, Berufstatätig,... etc.

Die unabhängigen Variablen zeigen in der ersten Regression (Vorsorgeprodukt ja oder nein) eine hohe Signifikanz, d. h. bis auf eine Variable sind alle mind. zum 95%-Niveau signifikant. In der zweiten Regression (Bausparvertrag ja oder nein) sind gerade mal zwei Variablen schwach signifikant.

Schaue ich mir nun den AIC oder das Pseudo-Bestimmtheismaß nach McFadden an, muss ich feststellen, dass Regression 2 den niedrigeren AIC bzw. den höheren McFadden Wert aufweist. Daraus würde ich erst einmal schließen, dass die Modellgüte von Model 2 "höher" oder "besser" ist, oder?
Ich stutzte etwas, weil doch die Ergebnisse der ersten Regression "besser" aussahen aufgrund der höheren beobachteten Signifikanzniveaus.

Passt das in irgendeiner Weise zusammen?
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Logistische Regression

Beitrag von EDi »

Da die Modelle auf unterschiedlichen Daten beruhen (abhängige Variablen) macht ein Vergleich über AIC wenig Sinn (nur bei genesteten Modellen auf dem gleichen Daten anwendbar).

P-taugen auch nichts (generell und erst recht nicht für diese Frage).
. Nun möchte ich eine Aussage darüber treffen, welches Modell das "beste" ist.
Wie ist "beste" definiert? D. H. An was misst du das?

Man könnte eine Testdatensatz nehmen und z. B. Schauen wie oft das Modell richtig vorhersagt. Gibt aber noch viele andere Kriterien, je nachdem was dir wichtig ist.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Logistische Regression

Beitrag von bigben »

Ja, das widerspricht zunächst einmal der Intuition. Zumal die Prädiktoren im einen Fall nicht stärker korrelliert sein können als im anderen Fall, da sie ja identisch sind. Eine gute Antwort aus dem Stegreif habe ich nicht.

Vielleicht sagen die besseren Statistiker hier eher was, wenn Du die Summarys beider Regressionen hier einstellst. Ich könnte mir vorstellen, dass denen zurzeit noch der R-Bezug in diesem Thread fehlt.

Was mir deutlich mehr Gedanken machen würde: Wenn ein Prädiktor bei 4000 (!) Fällen nur knapp signifikant wird, dann dürfte die Effektstärke nicht besonders groß sein...

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Logistische Regression

Beitrag von EDi »

Zumal die Prädiktoren im einen Fall nicht stärker korrelliert sein können als im anderen Fall, da sie ja identisch sind
Stimmt, eigentlich braucht's gar kein Modell, die Varianz der Abhängigen Variable reicht doch schon um die Frage zubeantworten?!
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
MR-93

Re: Logistische Regression

Beitrag von MR-93 »

Falls das nicht deutliche wurde, ich habe alle Regressionen auf Basis des gleichen Datensatzes durchgeführt.

"Das beste Model" sollte doch eigentlich jenes sein, welches den höchstens Erklärungsgehalt hat. Um also sagen zu können, die gleichen Variablen und der gleiche Datensatz erklären entweder Y1 besser oder eben Y2. Ist das nachvollziehbar?

Ich werde mal beide Regressionen anhängen: Als erste die Regression den hohe Signifkanzniveaus und dem deutlich höheren AIC.
"VEinkommen" ist die binäre Variable: Einkommen abgesichert über entsprechende Produkte/Verträge; ja (=1) und nein (=0)
"VGesundheit" ist die binäre Variable: Gesundheit abgesichert über entsprechende Produkte/Verträge; ja (=1) und nein (=0)
Regression_1.PNG
Regression_2.PNG
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Logistische Regression

Beitrag von EDi »

Wie gesagt AIC ist nicht vergleichbar, da Unterschiedliche Datengrundlage.

Zweiteres Model ist zwar bei der explained deviance besser (24% vs 16%), passt aber nicht wirklich zu den Daten: heftig underdispersed... Quasi-Likelihood methoden oder ein observation level random effekt könnten helfen.

Interessant sind auch die Effektgrößen...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
MR-93

Re: Logistische Regression

Beitrag von MR-93 »

EDi hat geschrieben: Do Jun 28, 2018 9:18 pm Wie gesagt AIC ist nicht vergleichbar, da Unterschiedliche Datengrundlage.
Also die Datengrundlag ist die gleich! Sonst würde es in der Tat keinen Sinn machen sich den AIC anzusehen..
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Logistische Regression

Beitrag von EDi »

Also die Datengrundlag ist die gleich! Sonst würde es in der Tat keinen Sinn machen sich den AIC anzusehen..
Wenn du das meinst :roll: Ich glaube das nicht...

Dann halt andersrum: Du vergleichst nicht-genestete Modelle und da macht IMO AIC auch keinen Sinn.
Vielleicht hab ich aber auch einen Denkfehler...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten