Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

Hi Bernhard,
mhhh. Ja, also ich rechne so meine Aufgaben, bekomme mal ein Tipp bei einem Cafe oder auf einem Flur von einem Kommilitonen, a la 'schau doch mal in diesem Bereich nach Möglichkeiten' (multivariate Methoden) und ich schaue mich um und lande bei binomial GLMs und schaue mich wieder um und versuche zu sehen, ob meine Fragestellung (potentielle Abhängigkeiten) mit einer dieser Methoden besser abgedeckt wird. Das finde ich bis zu diesem Punkt völlig ok und nachvollziehbar, oder?

Dein zweiter Punkt bezieht sich auf die Frage, wie weit gehe ich in mein wirkliches Beispiel rein. Ich war jetzt einerseits überrascht über das Bedürfnis doch die Dinge eines bzw. einer Fragenden gänzlich nachvollziehen zu können, als vielmehr nur die grobe Problemstellung zu kennen. Man will ja die Leute nicht zutexten :) Andererseits, klar, wenn ich es versuche einem Leser einfach zu machen, können ja auch Probleme auftreten.

Was schließe ich jetzt daraus? Mhhh. Ich solle doch beim richtigen Ursprungsproblem, obwohl es eventuell anstrengend ist es zu beschreiben, möglichst sauber vorher beschreiben, sonst kann man keine Tipps geben...?

Ich möchte verstehen, ob ich mit meinen Daten, Individuen mit bestimmten Eigenschaften (Gesundheit, Wohnort, Familie etc.), ein binomial GLM nutzen kann. Und: ich möchte meine Ergebnisse richtig interpretieren, deshalb meine Frage nach der Referenz.


Clara
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von bigben »

clara_in_r hat geschrieben: So Jul 19, 2020 7:53 pmIch solle doch beim richtigen Ursprungsproblem, obwohl es eventuell anstrengend ist es zu beschreiben, möglichst sauber vorher beschreiben, sonst kann man keine Tipps geben...?
Wenn Du den Thread nochmal liest, wirst Du feststellen, dass ich durchaus bereit bin, Dir Tipps zu geben.

Wie Du leicht sehen kannst, habe ich in zwei Foren kummuliert über 9 Jahre und über 5000 Beiträge Erfahrung damit, Leuten in Foren mit ihren Statistikproblemen zu helfen. Wenn ich Dir auf dieser Erfahrung aufbauend sage, dass es sinnvoller ist, sich von der Fragestellung als von der Methodenwahl zu nähern, ist das dann kein Tipp?
Ich möchte verstehen, ob ich mit meinen Daten, Individuen mit bestimmten Eigenschaften (Gesundheit, Wohnort, Familie etc.), ein binomial GLM nutzen kann.


Klar kannst Du. Dennoch rate ich Dir erst zu (er)klären, welche Frage Du an Deine Daten hast. Erst damit lässt sich beantworten, ob für diese Frage eine Häufigkeitstabelle oder eine multiple Regression angemessen ist.Ob Du eine Fragestellung für eine multiple Regression oder tatsächlich für eine multivariate Regression hast, wie "Dir gesagt wurde".
deshalb meine Frage nach der Referenz.
Ich dachte, die Frage nach der Referenz hätte ich bereits zur Zufriedenheit beantwortet.
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

Los gehts: :)

Ich untersuche mehrere Tausend Verkäufer (Personen/Firmen), ob sie eine bestimmte Preisstrategie aufweisen (1/0 – ja oder nein). Ich habe bisher z.B. die Eigenschaft „Wohnort“ untersucht (ländlich/urban) und einen Two-proportion Z-test gemacht, um die Unterschiede der Anteile in den beiden Untergruppen zu testen, z.B. ländlich (21 %) und urban (17 %) – signifikanter Unterschied ja oder nein. Des Weiteren z.B. Einkommen der Verkäufer (hoch/niedrig).

Nun ergab sich die Vermutung, es gäbe hier Zusammenhänge, z.B. ist das Einkommen eventuell öfter niedriger in ländlichen Gegenden. Von daher wollte ich nun Untergruppen koppeln, d.h. mit Hilfe eines binomial GLM schauen, ob sich die Ergebnisse auch dort widerspiegeln bzw. noch interessantere Ergebnisse ergeben.

Y (1/0) ~ ländlich_Enkommen_niedrig + ländlich_Einkommen_hoch + urban_ Enkommen_niedrig + urban_Einkommen_hoch

Das mache ich mit mehreren unabhängigen Variablen, ca. 10 oder 12, da ich auch die Verkäufer teilweise noch weiter einteile (z.B. in Altersgruppen). Auch da kann es eventuell einen Zusammenhang zum Einkommen geben:

Y (1/0) ~ Alter_21-30_Enkommen_niedrig + Alter_21-30_Einkommen_hoch + Alter_31-40_Enkommen_niedrig + Alter_31-40_Einkommen_hoch
etc.

Ich habe das auch mit einem normalen OLS versucht, d.h. mit einer stetigen abhängigen Variable, die ich aber nicht so super finde, denn sie spiegelt den Fall des kriminellen Aktes nicht so super dar, wie die klare dummy. Die Ergebnisse bzw. die Richtung der Koeffizienten waren allerdings ähnlich wie bei meinen bisherigen Ergebnissen mit dem binomial GLM. Das wäre eventuell meine Ruckzugsmöglichkeit, da ich mich mit dem OLS vertraut fühle und wo es ja auch klare R² gibt (das ist ja bei binomial GLMs ein bisschen anders, wie ich gelesen habe).

Und ja: :) Dieses Problem multiple Regression vs. multivariate Regression ist bei mir auch nicht gänzlich geklärt, ob wohl ich da durch ein bisschen Lektüre schon a den Unterschied bzw. Abgrenzungen rangekommen bin.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von bigben »

clara_in_r hat geschrieben: Mo Jul 20, 2020 12:10 pmIch untersuche mehrere Tausend Verkäufer (Personen/Firmen), ob sie eine bestimmte Preisstrategie aufweisen (1/0 – ja oder nein).
Das ist eine gute abhängige Variable für eine multiple binär-logistische Regression. Solange es bei dieser einen abhängigen bleibt, brauchen wir keine multivariaten Modelle.
Ich habe bisher z.B. die Eigenschaft „Wohnort“ untersucht (ländlich/urban) und einen Two-proportion Z-test gemacht, um die Unterschiede der Anteile in den beiden Untergruppen zu testen, z.B. ländlich (21 %) und urban (17 %) – signifikanter Unterschied ja oder nein. Des Weiteren z.B. Einkommen der Verkäufer (hoch/niedrig)
.

Dabei hast Du isoliert untersucht, ob Wohnort und Einkommensgruppe der Verkäufer in einem Zusammenhang stehen und dafür brauchst Du keine logistische Regression. Wenn Du aber denkst, dass Wohnort und Einkommensgruppe gleichzeitig-gemeinsam, irgendwie additiv, Einfluss auf die Preisstrategie nehmen, dann kannst Du den Einfluss beider gleichzeitig mit einer logistischen Regression untersuchen. Nur etwas anders als Du es oben beschrieben hast.

Stell Dir vor, dass die Unterschiede allein durch den Wohnort bedingt sind, dass aber ländlich wohnende Verkäufer nicht so oft in hohe Einkommensgrupppen kommen. Dann kann das multilpe Regressionsmodell erkennen, dass der Einfluss nicht vom Verkäufereinkommen kommt, sondern die Preisstrategie besser vom Wohnort allein vorhergesagt werden kann. Mit dem Zwei-Proportionentest gelingt das nicht.
Y (1/0) ~ ländlich_Enkommen_niedrig + ländlich_Einkommen_hoch + urban_ Enkommen_niedrig + urban_Einkommen_hoch
Die Notation ist ungeschickt, wenn man R im Hinterkopf hat. In R wirst Du eine Variable wohnort anlegen, die dann die Werte "ländlich" und "urban" annimmt und eine zweite Variable einkommen, die die Werte "hoch" und "niedrig" annimmt. Daraus Dummyvariablen zu machen kannst Du R überlassen.

Wir wären dann bei sowas wie

Code: Alles auswählen

glm(preisstrategie ~ wohnort + einkommen, family="binomial")
.

Code: Alles auswählen

Y (1/0) ~ Alter_21-30_Enkommen_niedrig + Alter_21-30_Einkommen_hoch + Alter_31-40_Enkommen_niedrig + Alter_31-40_Einkommen_hoch 
etc.
Es dürfte im Allgemeinen sinnvoller sein, Alter und Einkommen nicht gemeinsam in Dummyvariablen zu codieren sondern eine Dummyvariable für das Alter und eine für das Einkommen anzulegen, womit sich dann der Einfluss von Alter und der Einfluss von Einkommen und der Einfluss von wohnort jeweils über alle Faktorstufen der anderen Prädiktoren hinweg untersuchen ließe.

Ich habe das auch mit einem normalen OLS versucht, d.h. mit einer stetigen abhängigen Variable, die ich aber nicht so super finde, denn sie spiegelt den Fall des kriminellen Aktes nicht so super dar, wie die klare dummy.
Ich schließe daraus, dass man "bestimmte Preisstrategie" sowohl binär als auch metrisch definieren kann, wobei metrisch ja noch nicht bedeutet, dass diese Metrik in einem linearen Verhältnis zu den Prädiktoren stehen muss.
Als Faustregel gilt, dass man metrische Maße nicht künstlich dichotomisieren sollte, weil man dabei Information verwirft. Wenn ich Menschen verschiedener Lebensalter in nicht-erwachsen und erwachsen dichotomisiere, dann stehen sich der 18jährige und der 90jährige näher als der 17jährige und der 18jährige. Meistens ist sowas Quatsch, aber es gibt sicher Ausnahmen (z. B. Führerscheinvergabe) wo man diese Faustregel über Bord werfen sollte. Auch das sollte man aber von inhaltlchen Erwägungen abhängig machen und nicht davon, ob man bei einem Rechenmodell die Metriken schon kennt, sie sich beim anderen aber erst anlesen müsste.

Viel Erfolg,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

Hallo Bernhard,

danke für Deine Antwort. Das macht alles sehr viel Sinn und ich merke, dass ich R vorher stets viel zu viel Arbeit abnehme… :)

An einem Punkt von Dir stolpere ich - habe aber glaube ich eine Vermutung für die Lösung:
„womit sich dann der Einfluss von Alter und der Einfluss von Einkommen und der Einfluss von Wohnort jeweils über alle Faktorstufen der anderen Prädiktoren hinweg untersuchen ließe“
Ich habe also nicht mehr folgende erklärende Variablen und entsprechende Koeffizienten in meiner Regression, auf die ich immer warte und interpretieren möchte

‚Alter_21-30_Enkommen_niedrig‘, ‚Alter_21-30_Einkommen_hoch‘, Alter_31-40_Enkommen_niedrig‘.
Folgender Koeffizient fällt z.B. weg, wenn ich keine anderen Eigenschaften mehr in meinen Daten habe: ‚Alter_31-40_Einkommen_hoch‘ (Ich kann ja aber auch noch andere Altersklassen haben, die ich nicht abfrage. Dann bleibt die Variable drinnen.)

sondern in Deiem Modell „nur“ zwei Koeffizieten, nämlich z.B. einen Koeffizienten für Einkommen_hoch und einen Koeffizienten für Alter_21-30, oder?

Aber inwiefern enthält der Koeffizient von Einkommen_hoch auch Infos zum Alter (‚über alle Faktorstufen der anderen Prädiktoren hinweg ‘) und der vom Alter auch über das Einkommen? Wie kommt das in den Koeffizienten, nur weil die andere Dummy-Kategorie mit in der Regression drinnen ist?

Meine Vermutung:
Ich habe oben ja einfach einen Koeffizienten mehr? Die Info dieses „verlorenen" Koeffizienten ist dann irgendwie im Intercept….? Bzw. man muss die Effekte/Koeffizienten dann addieren?
Z.B. Intercept + Koeffizient für Einkommen_hoch + Koeffizient für Alter_21-30 = Effekt Einkommen_hoch_Alter_21-30
Z.B. Intercept = Effekt Einkommen_niedrig_Alter_31-40
Z.B. Intercept + Koeffizient für Alter_21-30 = Effekt Einkommen_niedrig_Alter_21-30

Geht das wirklich so?

Clara
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von EDi »

Bei nur kategorischen Variablen könnte man den Intercept auch weglassen, dann sind die Koeffizienten vielleicht einfacher zu interpretieren...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von bigben »

clara_in_r hat geschrieben: Mo Jul 20, 2020 10:24 pmIch habe also nicht mehr folgende erklärende Variablen und entsprechende Koeffizienten in meiner Regression, auf die ich immer warte und interpretieren möchte

‚Alter_21-30_Enkommen_niedrig‘, ‚Alter_21-30_Einkommen_hoch‘, Alter_31-40_Enkommen_niedrig‘.
Nochmal, mit Koeffizienten, die sowohl das Alter als auch das Einkommen beinhalten, erreichst Du nicht mehr als mit Häufigkeitstabellen, die leichter zu begreifen sind. Erst wenn Du die Koeffizienten für Alter und Einkommen voneinander trennst gewinnst Du die Vorteile der multiplen Regression. Also ein Koeffizient für Alter_21b30 und ein eigener für Einkommen_niedrig.
sondern in Deiem Modell „nur“ zwei Koeffizieten, nämlich z.B. einen Koeffizienten für Einkommen_hoch und einen Koeffizienten für Alter_21-30, oder?
Ich habe geschrieben, dass ich in R eine Variable einkommen und eine alter einführen würde. Wenn die Variable alter dann fünf Stufen hat, dann wird R dafür trotzdem 4 Koeffizienten berechnen (oder 5, wenn man EDis Vorschlag folgt).

Aber inwiefern enthält der Koeffizient von Einkommen_hoch auch Infos zum Alter (‚über alle Faktorstufen der anderen Prädiktoren hinweg ‘)


Gar nicht. Dieser Koeffizient enthält nur Informationen zum Einkommen und er ist nur anwendbar gemeinsam mit anderen Koeffizienten die Informationen zum Alter enthalten. Für alle Altersgruppen ist der Beitrag des Einkommens gleich und deshalb kannst Du den Beitrag des Einkommens getrennt vom Beitrag des Alters interpretieren. Das funktioniert natürlich nur im Rahmen der Modellannahmen der logistischen Regression.

EDis Vorschlag, ohne Intercept zu rechnen, ist echt nicht schlecht. In R würde man das ungefähr so schreiben:

Code: Alles auswählen

summary( glm( y ~ wohnort + einkommen - 1, family = "binomial" ))
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

Ok, danke für den Tipp. Ein Durchrechnen einiger Modelle in meiner Auswahl zeigen zwei Ergebnisse:

(1) Auf einmal sind alle Koeffizienten hochgradig signifikant - und nicht mehr nur die Mehrheit.

(2) Alle Koeffizienten sind negativ. Und anscheinend ist es so: Intercept + Einkommen = Einkommen (Modell ohne Intercept).
Vorher waren die Koeffizienten jedoch teilweise positiv, teilweise negativ, jeweils in welche Richtung sie tendieren, d.h. begünstigend oder verhindernd, dass die illegale Preisstrategie umgesetzt wird. Jetzt finde ich sie dadurch eher schwieriger zu interpretieren, da einfach alle negativ sind...?
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von bigben »

clara_in_r hat geschrieben: Di Jul 21, 2020 2:02 pmJetzt finde ich sie dadurch eher schwieriger zu interpretieren, da einfach alle negativ sind...?
Negativ heißt, dass die jeweilige Eigenschaft vor illegalen Preisstrategien schützen, denn negativ ist ja immer relativ zur Referenzkategorie.
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

Das denke ich nicht. Bei mir war die Konstante signifikant negativ (-2,1). Wenn ich sie wegnehme, dann setze ich sie doch implizit null. Und dann wird es in meinem Fall nicht einfacher mit der Interpretation, denn die signifikante Referenz, d.h. Intercept, ist ja weg.

Vorher wusste ich, Koeffizienten, die positiv sind zeigen einen anderen Zusammenhang als Koeffizienten, die negativ sind. Positiv - hin zu mehr Fällen der Preisstartegie, Negativ - geringere Wahrscheinlichkeit des Auftretens der Preisstrategie.

LG
Cl
Antworten