clara_in_r hat geschrieben: Mo Jul 20, 2020 12:10 pmIch untersuche mehrere Tausend Verkäufer (Personen/Firmen), ob sie eine bestimmte Preisstrategie aufweisen (1/0 – ja oder nein).
Das ist eine gute abhängige Variable für eine multiple binär-logistische Regression. Solange es bei dieser einen abhängigen bleibt, brauchen wir keine multivariaten Modelle.
Ich habe bisher z.B. die Eigenschaft „Wohnort“ untersucht (ländlich/urban) und einen Two-proportion Z-test gemacht, um die Unterschiede der Anteile in den beiden Untergruppen zu testen, z.B. ländlich (21 %) und urban (17 %) – signifikanter Unterschied ja oder nein. Des Weiteren z.B. Einkommen der Verkäufer (hoch/niedrig)
.
Dabei hast Du isoliert untersucht, ob Wohnort und Einkommensgruppe der Verkäufer in einem Zusammenhang stehen und dafür brauchst Du keine logistische Regression. Wenn Du aber denkst, dass Wohnort und Einkommensgruppe gleichzeitig-gemeinsam, irgendwie additiv, Einfluss auf die Preisstrategie nehmen, dann kannst Du den Einfluss beider gleichzeitig mit einer logistischen Regression untersuchen. Nur etwas anders als Du es oben beschrieben hast.
Stell Dir vor, dass die Unterschiede allein durch den Wohnort bedingt sind, dass aber ländlich wohnende Verkäufer nicht so oft in hohe Einkommensgrupppen kommen. Dann kann das multilpe Regressionsmodell erkennen, dass der Einfluss nicht vom Verkäufereinkommen kommt, sondern die Preisstrategie besser vom Wohnort allein vorhergesagt werden kann. Mit dem Zwei-Proportionentest gelingt das nicht.
Y (1/0) ~ ländlich_Enkommen_niedrig + ländlich_Einkommen_hoch + urban_ Enkommen_niedrig + urban_Einkommen_hoch
Die Notation ist ungeschickt, wenn man R im Hinterkopf hat. In R wirst Du eine Variable wohnort anlegen, die dann die Werte "ländlich" und "urban" annimmt und eine zweite Variable einkommen, die die Werte "hoch" und "niedrig" annimmt. Daraus Dummyvariablen zu machen kannst Du R überlassen.
Wir wären dann bei sowas wie
Code: Alles auswählen
glm(preisstrategie ~ wohnort + einkommen, family="binomial")
.
Code: Alles auswählen
Y (1/0) ~ Alter_21-30_Enkommen_niedrig + Alter_21-30_Einkommen_hoch + Alter_31-40_Enkommen_niedrig + Alter_31-40_Einkommen_hoch
etc.
Es dürfte im Allgemeinen sinnvoller sein, Alter und Einkommen nicht gemeinsam in Dummyvariablen zu codieren sondern eine Dummyvariable für das Alter und eine für das Einkommen anzulegen, womit sich dann der Einfluss von Alter und der Einfluss von Einkommen und der Einfluss von wohnort jeweils über alle Faktorstufen der anderen Prädiktoren hinweg untersuchen ließe.
Ich habe das auch mit einem normalen OLS versucht, d.h. mit einer stetigen abhängigen Variable, die ich aber nicht so super finde, denn sie spiegelt den Fall des kriminellen Aktes nicht so super dar, wie die klare dummy.
Ich schließe daraus, dass man "bestimmte Preisstrategie" sowohl binär als auch metrisch definieren kann, wobei metrisch ja noch nicht bedeutet, dass diese Metrik in einem linearen Verhältnis zu den Prädiktoren stehen muss.
Als Faustregel gilt, dass man metrische Maße nicht künstlich dichotomisieren sollte, weil man dabei Information verwirft. Wenn ich Menschen verschiedener Lebensalter in nicht-erwachsen und erwachsen dichotomisiere, dann stehen sich der 18jährige und der 90jährige näher als der 17jährige und der 18jährige. Meistens ist sowas Quatsch, aber es gibt sicher Ausnahmen (z. B. Führerscheinvergabe) wo man diese Faustregel über Bord werfen sollte. Auch das sollte man aber von inhaltlchen Erwägungen abhängig machen und nicht davon, ob man bei einem Rechenmodell die Metriken schon kennt, sie sich beim anderen aber erst anlesen müsste.
Viel Erfolg,
Bernhard