bevorstehende mündliche Prüfung

Bob · Beitrag von **Bob** » Do Feb 10, 2022 12:19 pm

Moin moin Zusammen! [Prüfung findet am 17.02 statt]
Ich bin auf der Suche nach Experten Meinungen zu folgender Situation:

Aufgabenstellung:
10 minütige Vorstellung eines vorbereiteten R-Codes, mit einer gewichteten deskriptiven und zwei induktiven Methoden.

Welchen Einfluss hat der "Wohnort Typ" auf die Verkehrsleistung[km] einer Person?

Wie würdet ihr da vorgehen? Welche Methoden könnt ihr empfehlen und warum?

Der vorgegebene Datensatz enthält Angaben von 10.000 Personen zu:

Auto vorhanden J/N
Geschlecht
Alter
Führerschein vorhanden J/N
Tätigkeitsgruppe
Anzahl vorhandener PKW
Anzahl Wege
Verkehrsleistung[km] = Y
Verkehrsleistung[min]
Größe des Haushalts
ökonomischer Status des Haushalts
Bundesland
zusammengefasster regionalstatistischer Gemeindetyp "Wohnort Typ" =X

Gewichtungsfaktor Personen
Hochrechnungsfaktor Personen
______________________________________

Meine Überlegungen soweit:

deskriptiv: einfache Visualisierung der Häufigkeit der Wohnorttypen, Verteilung der PersKM und eine Boxplot darstellung von den Wohnorttypen nach KM

Induktiv:
ANOVA: bivariate Varianz Analyse mit aov() perskm ~ Wohnohrttyp + ökonomischer Status des Haushalts
und dann würd ich am liebsten eine logistische Regression einbinden... habe aber keine Ahnung wie man die bei der Fragestellung sinnvoll anwendet.

Beitrag von **EDi** » Fr Feb 11, 2022 8:47 am

Induktiv:
ANOVA: bivariate Varianz Analyse mit aov() perskm ~ Wohnohrttyp + ökonomischer Status des Haushalts
und dann würd ich am liebsten eine logistische Regression einbinden... habe aber keine Ahnung wie man die bei der Fragestellung sinnvoll anwendet.

logistische regression wüsste ich nicht wie das sinnvoll zur Frage passen soll...

Aber vergleiche doch lm (ist das gleiche wie aov) vs glm?
Die km-Zahl ist ja rein positiv (oder 0), da würde sich eine Gamma verteilung anbieten. Bringst was das komplexere model zu nehmen? Wo sind die Unterschiede?

Bob · Beitrag von **Bob** » Fr Feb 11, 2022 12:37 pm

Statt der aov() macht also die glm(..., family=Gamma) mehr Sinn? Oder machen beide Auswerungen nacheinander Sinn?

Prof. ist nen großer Fan von discrete choice Modellen... und hat nen Kasten Bier in den Ring geworfen für Modelle mit Erklärungsgehalten von über 15% (R² oder McFadden-Pseudo-R²).

Für die logistische Reg. könnte man doch die Verkehrsleistung nach Viel und Wenig unterteilen und dann analysieren, welche Faktoren erklären, warum Personen in die Gruppe mit Hoher Verkehrsleistung fallen?
oder bin ich da aufm Holzweg?

Unser Prof hat uns die logistische Reg. nur mit dem mlogit Packet vorgestellt, bei dem man den Datensatz vor Auswertung noch Transponieren muss.
In Base R ist doch die logitische Reg. über glm(..., family = binomial) schon eingebunden, warum geht er dann den aufwändigeren Weg über das Packet?

Danke schonmal für die Unterstützung

Beitrag von **bigben** » Fr Feb 11, 2022 9:19 pm

Hallo!

Eine einfache binär-logistische Regression hat idealerweise eine Zielvariable, die dichotom ist. Wenn man sie erst dichotom machen muss, ist das meist das falsche Vorgehen.

Dichotom sind "Auto vorhanden" und "Führerschein vorhanden" und zu großen Teilen "Geschlecht". So, da könnte man doch jetzt ganz toll herauskriegen, dass größere Haushalte im Dorf eher ein Auto besitzen, weil der Single in der Großstatt mit der U-Bahn zur Arbeit fährt. Wenn Du ein großes (Pseudo-)R^2 haben musst, dann versuch doch mal aus der Zahl der vorhandenen PKW vorherzusagen, ob ein Fahrzeug vorhanden ist...

Für eine coole deskriptivstatik Schau Dir mal Kombinationen aus Bundesland und Verkehrsleistung oder Bundesland und Alter oder Bundesland und ökonomischer Status and und dann google nach "R Choropleth". Damit kann man echte Hingucker erstellen.

JMTC,
Bernhard

Bob · Beitrag von **Bob** » Sa Feb 12, 2022 12:18 pm

bigben hat geschrieben: ↑Fr Feb 11, 2022 9:19 pm Wenn Du ein großes (Pseudo-)R^2 haben musst, dann versuch doch mal aus der Zahl der vorhandenen PKW vorherzusagen, ob ein Fahrzeug vorhanden ist...

haha.. das wäre ja gepfuscht.
Aber der Hinweis auf Choropleth ist Hammer. Ich versuch aufjedenfall die Verkehrsleistung je Bundesland als Karte zu visualisieren.

Bezüglich der Induktiven Methoden bin ich verwirrter als vorher

Aktueller Stand:

-lineare Reg. mit 2 erklärenden Var.[Wohnohrttyp + ökonomischer Status des Haushalts]
verglichen mit
-Gamma regression mit deutlich mehr Erklärenden

Macht es Sinn gewisse Variablen noch zu logarithmieren bevor man die in die Gamma regression schmeißt?

Danke nochmal

Beitrag von **EDi** » So Feb 13, 2022 3:54 pm

-lineare Reg. mit 2 erklärenden Var.[Wohnohrttyp + ökonomischer Status des Haushalts]
verglichen mit
-Gamma regression mit deutlich mehr Erklärenden

Ich würde die gleichen erklärenden Variablen nutzen und die Modellen gegeneinander stellen:
Welches passt besser (AIC, residuen plots, ...)?
Kommen sie zu gleichen aussagen`?
Was sind die Unterschiede (Normal vs Gamma?, Indentity vs log-link? Interpretation der coeffizienten? et cetera)

Macht es Sinn gewisse Variablen noch zu logarithmieren bevor man die in die Gamma regression schmeißt?

Das kommt auf die Daten an...
Sinn kann das z.b. machen bei den mit großer Spannweite, sodass man die Einheit der Variable auf "Größenordungen" verändert (bei log10).
Oder bei rechtsschiefen Verteiungen...

Beitrag von **bigben** » Mo Feb 14, 2022 8:22 am

Hallo Bob,

Bob hat geschrieben: ↑Sa Feb 12, 2022 12:18 pmAktueller Stand:

-lineare Reg. mit 2 erklärenden Var.[Wohnohrttyp + ökonomischer Status des Haushalts]
verglichen mit
-Gamma regression mit deutlich mehr Erklärenden

Ehrlich gesagt verstehe ich die Gegenüberstellung nicht. Was hat die Zahl der Erklärenden mit der Wahl des Modells zu tun? Und wenn Du glaubst, Dein Prof. sei ein großer Fan der logistischen Regression, warum hast Du die schon verworfen?

LG,
Bernhard

Bob · Beitrag von **Bob** » Mi Feb 16, 2022 4:00 pm

Danke für die Inputs.

logistisches Reg. Modell ist wieder im Rennen als Fernpendler Analyse.

Deutsches R-Forum

bevorstehende mündliche Prüfung

bevorstehende mündliche Prüfung

Re: bevorstehende mündliche Prüfung

Re: bevorstehende mündliche Prüfung

Re: bevorstehende mündliche Prüfung

Re: bevorstehende mündliche Prüfung

Re: bevorstehende mündliche Prüfung

Re: bevorstehende mündliche Prüfung

Re: bevorstehende mündliche Prüfung