Seite 1 von 2

Logistische Regression

Verfasst: Do Jun 28, 2018 11:32 am
von MR-93
Hallo zusammen,

ich hoffe, dass ich hier etwas Hilfe finden kann.

Ich habe einen Datensatz (Kundendaten) und 6 logistische Regressionen durchgeführt, mit 6 unterschiedlichen abhängigen Variabeln.
Die erklärenden Variablen (8 an der Zahl) sind in jeder Regression durch selben.
Das Ziel ist es zu schauen, welche abhängige Variable mit den unabhängigen Variablen am besten erklärt werden kann. Die Ergbnisse, in Bezug auf die Signifikanz, sehen recht gut aus. Nun möchte ich eine Aussage darüber treffen, welches Modell das "beste" ist. Wie kann ich das am besten umsetzen?

Komischerweise ist es so, dass das AIC in derjenigen Regression am kleinsten ist, in der die geringsten Signifikanzen festgestellt werden konnten :shock:

Vielleicht hat ja jemand von euch eine gute Idee!? :-)

Re: Logistische Regression

Verfasst: Do Jun 28, 2018 3:34 pm
von bigben
Hallo MR-93,

ich hab keine Ahnung, was es bedeutet, wenn etwas "in Bezug auf die Signifikanz recht gut aussieht". Auch fehlen kleine Details wie Stichprobenumfang und Skalenniveau der abhängigen Variablen (sind das binäre Daten oder metrische zwischen 0 und 1) und was geringste Signifikanzen sein sollen, bleibt unklar. Bei SPSS-Usern heißt der p-Wert oft Signifikanz. Vielleicht meinst Du also das Modell mit den kleinsten p-Werten? Vielleicht meinst Du aber auch, dass die geringste Zahl von Prädiktoren signifikant wird? Vielleicht meinst Du aber auch, dass etwas umso signifikanter sei, je kleiner der p-Wert ist. Der Satz ist also nicht wirklich verständlich.

Ich versuche mich trotzdem mal an einer Antwort: glm gibt Dir regelhaft die residual deviance und den AIC aus. Beides dürfte in der Regel geeigneter sein, die Passung zu beschreiben als irgendwelche p-Werte.

LG,
Bernhard

Re: Logistische Regression

Verfasst: Do Jun 28, 2018 3:56 pm
von MR-93
Hallo Bernhard,

erstmal vielen Dank für deine Antwort. Du hast Recht, da habe ich wohl ein paar Details unter den Tisch fallen lassen.
Vielleicht kann ich mein Problem anhand von zwei Regressionen besser erklären:

Die beiden abhängigen Variablen sind reine 0/1 Entscheidungen. Y1: der Kunde hat ein Vorsorgeprodukt (=1) bzw. hat keins (=0) und Y2: der Kunde hat einen Bausparvertrag (=1) bzw. er hat keinen (=0).
Der Datensatz umfasst ingesamt 4000 Kunden. Für beide logitischen Regressionen sind es die selben 8 erklärenden Variablen (auch binäre darunter): Alter, Einkommen, Berufstatätig,... etc.

Die unabhängigen Variablen zeigen in der ersten Regression (Vorsorgeprodukt ja oder nein) eine hohe Signifikanz, d. h. bis auf eine Variable sind alle mind. zum 95%-Niveau signifikant. In der zweiten Regression (Bausparvertrag ja oder nein) sind gerade mal zwei Variablen schwach signifikant.

Schaue ich mir nun den AIC oder das Pseudo-Bestimmtheismaß nach McFadden an, muss ich feststellen, dass Regression 2 den niedrigeren AIC bzw. den höheren McFadden Wert aufweist. Daraus würde ich erst einmal schließen, dass die Modellgüte von Model 2 "höher" oder "besser" ist, oder?
Ich stutzte etwas, weil doch die Ergebnisse der ersten Regression "besser" aussahen aufgrund der höheren beobachteten Signifikanzniveaus.

Passt das in irgendeiner Weise zusammen?

Re: Logistische Regression

Verfasst: Do Jun 28, 2018 4:58 pm
von EDi
Da die Modelle auf unterschiedlichen Daten beruhen (abhängige Variablen) macht ein Vergleich über AIC wenig Sinn (nur bei genesteten Modellen auf dem gleichen Daten anwendbar).

P-taugen auch nichts (generell und erst recht nicht für diese Frage).
. Nun möchte ich eine Aussage darüber treffen, welches Modell das "beste" ist.
Wie ist "beste" definiert? D. H. An was misst du das?

Man könnte eine Testdatensatz nehmen und z. B. Schauen wie oft das Modell richtig vorhersagt. Gibt aber noch viele andere Kriterien, je nachdem was dir wichtig ist.

Re: Logistische Regression

Verfasst: Do Jun 28, 2018 5:01 pm
von bigben
Ja, das widerspricht zunächst einmal der Intuition. Zumal die Prädiktoren im einen Fall nicht stärker korrelliert sein können als im anderen Fall, da sie ja identisch sind. Eine gute Antwort aus dem Stegreif habe ich nicht.

Vielleicht sagen die besseren Statistiker hier eher was, wenn Du die Summarys beider Regressionen hier einstellst. Ich könnte mir vorstellen, dass denen zurzeit noch der R-Bezug in diesem Thread fehlt.

Was mir deutlich mehr Gedanken machen würde: Wenn ein Prädiktor bei 4000 (!) Fällen nur knapp signifikant wird, dann dürfte die Effektstärke nicht besonders groß sein...

LG,
Bernhard

Re: Logistische Regression

Verfasst: Do Jun 28, 2018 5:48 pm
von EDi
Zumal die Prädiktoren im einen Fall nicht stärker korrelliert sein können als im anderen Fall, da sie ja identisch sind
Stimmt, eigentlich braucht's gar kein Modell, die Varianz der Abhängigen Variable reicht doch schon um die Frage zubeantworten?!

Re: Logistische Regression

Verfasst: Do Jun 28, 2018 6:24 pm
von MR-93
Falls das nicht deutliche wurde, ich habe alle Regressionen auf Basis des gleichen Datensatzes durchgeführt.

"Das beste Model" sollte doch eigentlich jenes sein, welches den höchstens Erklärungsgehalt hat. Um also sagen zu können, die gleichen Variablen und der gleiche Datensatz erklären entweder Y1 besser oder eben Y2. Ist das nachvollziehbar?

Ich werde mal beide Regressionen anhängen: Als erste die Regression den hohe Signifkanzniveaus und dem deutlich höheren AIC.
"VEinkommen" ist die binäre Variable: Einkommen abgesichert über entsprechende Produkte/Verträge; ja (=1) und nein (=0)
"VGesundheit" ist die binäre Variable: Gesundheit abgesichert über entsprechende Produkte/Verträge; ja (=1) und nein (=0)
Regression_1.PNG
Regression_2.PNG

Re: Logistische Regression

Verfasst: Do Jun 28, 2018 9:18 pm
von EDi
Wie gesagt AIC ist nicht vergleichbar, da Unterschiedliche Datengrundlage.

Zweiteres Model ist zwar bei der explained deviance besser (24% vs 16%), passt aber nicht wirklich zu den Daten: heftig underdispersed... Quasi-Likelihood methoden oder ein observation level random effekt könnten helfen.

Interessant sind auch die Effektgrößen...

Re: Logistische Regression

Verfasst: Fr Jun 29, 2018 8:30 am
von MR-93
EDi hat geschrieben: Do Jun 28, 2018 9:18 pm Wie gesagt AIC ist nicht vergleichbar, da Unterschiedliche Datengrundlage.
Also die Datengrundlag ist die gleich! Sonst würde es in der Tat keinen Sinn machen sich den AIC anzusehen..

Re: Logistische Regression

Verfasst: Fr Jun 29, 2018 7:35 pm
von EDi
Also die Datengrundlag ist die gleich! Sonst würde es in der Tat keinen Sinn machen sich den AIC anzusehen..
Wenn du das meinst :roll: Ich glaube das nicht...

Dann halt andersrum: Du vergleichst nicht-genestete Modelle und da macht IMO AIC auch keinen Sinn.
Vielleicht hab ich aber auch einen Denkfehler...