Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

Hallo in die Runde,

gibt es die Möglichkeit auf beiden Seiten, also für abhängige und unabhängige Variablen, jeweils Dummy-Variablen zu nutzen?
Wie heißen solche logit-Modelle? Ich habe bisher nichts gefunden, eventuell auch weil mir der Begriff fehlt...?

Binary logistic regressions kenne ich für Modelle, die Dummy-Variablen als abhängige haben. Wie ist das, wenn ich diese nur über dummy-Variablen erklären möchte? Geht das? Muss ich da etwas beachten?

Clara
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von EDi »

logit Modell, logistische Regression, binomial GLM, ... alles das gleiche. Und anwendbar wenn die abhängige variable 0/1 ist.

Auf der erklärenden Seite machen dummies auch kein Problem.

Pseudo-Code:

Code: Alles auswählen

glm(y ~ dummy, data = df, family=binomial())
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

super, danke. so bin ich da auch rangegangen. das hat mir geholfen zu wissen, dass ich auf der sicheren seite bin. warum gibt es immer so viele bezeichnungen, und nicht eine, die sich durchsetzt?

hast du/habt ihr noch einen tipp für einen test auf multikolinearität?

ich hatte nur den Farrar – Glauber Test gefunden, aber dieses package (mctest) hat bei mir nicht gut funktioniert. gibt es nicht auch einen vergleichbaren test in üblicheren packages, die man vielleicht schon auf dem rechner hat und für solch eine doppel-dummy-logit regression nutzen kann??

https://datascienceplus.com/multicollinearity-in-r/

clara
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von EDi »

Ich teste sowas in der Regel nicht, schaue es mir nur an...

Es gab mal von Dormann ein Paper, wo rauskam dass es ab einem pearson (oder war es spearman?) r>0.7 problematisch wird.

Der VIF ist auch ein guter Indikator...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

noch eine Nachfrage: hast Du ein Beispiel von jemandem, der ein solches Regressionsmodell nutzt (Homepage oder Paper - ganz egal). Also mit dummies als erklärende und abhängige Variable. Das wäre toll.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von bigben »

Schau mal, ich glaube, das hier passt: https://rstatisticsblog.com/data-scienc ... on-with-r/

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

Oh ja, danke. So ein Beispiel habe ich gesucht.
Da kommen mir gleich zwei Fragen zu meinen Modellen – vor allem zur Interpretation wegen der Referenz des Modells:

(1) Ich habe folgendes Modell:
ja(1)/nein(0) ~ Individuen_kleiner_1_Meter_50 + Individuen_größer_1_Meter_80

Ich schaue mir also die Extremfälle an und lasse eine Gruppe dazwischen sozusagen direkt als Referenz weg. Ist das dann aber meine Referenz? D.h., wie interpretiere ich meine Koeffizienten?

Und was, wenn es so aussieht:

ja(1)/nein(0) ~ Männer_kleiner_1_Meter_50 + Männer_größer_1_Meter_80
+ Frauen_kleiner_1_Meter_50 + Frauen_größer_1_Meter_80

(2) Hier habe ich alle in einer der Gruppen, aber (!) im Datensatz gibt es auch noch Leute, die weder Männer noch Frauen sind, oder z.B. Kinder.

ja(1)/nein(0) ~ Männer_kleiner_gleich_1_Meter_65 + Männer_größer_1_Meter_65
+ Frauen_kleiner_gleich_1_Meter_65 + Frauen_größer_1_Meter_65

Mhhh, das finde ich wirklich schwierig zu interpretieren. Ich freue mich auf Eure Einschätzung.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von bigben »

Ich verstehe noch nicht, warum Du dafür eine logistische Regression rechnest und nicht einfach eine Häufigkeitstabelle erstellst.

LG, Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
clara_in_r
Beiträge: 19
Registriert: Mi Jun 13, 2018 9:42 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von clara_in_r »

Ja, gute Idee. Mache ich auch. Aber jemand meinte, ich solle das auch mal noch so rechnen. Das mit den Geschlechter etc. ist nur ein Beispiel. Es geht also eigentlich um sagen wir viele Gruppen und mir wurde gesagt, ich solle mal solch eine multivariate Analyse machen.

Zuerst habe ich mich für den Vergleich zwischen Individuen 1 und Individuen 2 auf y (ja(1)/nein(0)) interessiert, auch mit Haufigkeit.
Das habe ich auch für alle kleiner_1_Meter_50 oder alle größer_1_Meter_80 auf Häufigkeit von y (ja(1)/nein(0)) untersucht. Dann kam aber die Idee, vielleicht sind die Individuen 1, 2, 3 etc. die ich vergleiche nicht richtig unabhängig, z.B. das Individuen_1 immer eher kleiner als 1,50 Meter sind und Individuen 2 halt größer.

Deshalb also z.B.

ja(1)/nein(0) ~ Individuen_1_kleiner_1_Meter_50 (1 oder 0) + Individuen_1_größer_1_Meter_80 (1 oder 0)
Individuen_2_kleiner_1_Meter_50 (1 oder 0) + Individuen_2_größer_1_Meter_80 (1 oder 0)
Individuen_3_kleiner_1_Meter_50 (1 oder 0) + Individuen_3_größer_1_Meter_80 (1 oder 0)
Individuen_4_kleiner_1_Meter_50 (1 oder 0) + Individuen_4_größer_1_Meter_80 (1 oder 0)

Macht das Sinn?
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vielleicht einfache Frage? Dummy auf beiden Seiten der Regression

Beitrag von bigben »

clara_in_r hat geschrieben: Sa Jul 18, 2020 9:00 pmjemand meinte, ich solle das auch mal noch so rechnen.
Soso, jetzt sind wir also von "darf man auf beiden Seiten Dummys verwenden" bei "jemand hat gesagt, ich soll etwas rechnen". Die Frage sollte aber lauten, "wie kann ich mihilfe meiner Daten meine Fragestellung beantworten".
Das mit den Geschlechter etc. ist nur ein Beispiel.
Das habe ich mir schon gedacht. Meine Meinung dazu habe ich für ein anderes Forum mal ausformuliert. Gilt auch in diesem Forum. Falls es Dich interessiert: [url=http://www.statistik-forum.de/nutzung-d ... tml#p31013]8. Erdachte Parallelprobleme[/quote].

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten