Moin moin Zusammen! [Prüfung findet am 17.02 statt]
Ich bin auf der Suche nach Experten Meinungen zu folgender Situation:
Aufgabenstellung:
10 minütige Vorstellung eines vorbereiteten R-Codes, mit einer gewichteten deskriptiven und zwei induktiven Methoden.
Welchen Einfluss hat der "Wohnort Typ" auf die Verkehrsleistung[km] einer Person?
Wie würdet ihr da vorgehen? Welche Methoden könnt ihr empfehlen und warum?
Der vorgegebene Datensatz enthält Angaben von 10.000 Personen zu:
Auto vorhanden J/N
Geschlecht
Alter
Führerschein vorhanden J/N
Tätigkeitsgruppe
Anzahl vorhandener PKW
Anzahl Wege
Verkehrsleistung[km] = Y
Verkehrsleistung[min]
Größe des Haushalts
ökonomischer Status des Haushalts
Bundesland
zusammengefasster regionalstatistischer Gemeindetyp "Wohnort Typ" =X
Gewichtungsfaktor Personen
Hochrechnungsfaktor Personen
______________________________________
Meine Überlegungen soweit:
deskriptiv: einfache Visualisierung der Häufigkeit der Wohnorttypen, Verteilung der PersKM und eine Boxplot darstellung von den Wohnorttypen nach KM
Induktiv:
ANOVA: bivariate Varianz Analyse mit aov() perskm ~ Wohnohrttyp + ökonomischer Status des Haushalts
und dann würd ich am liebsten eine logistische Regression einbinden... habe aber keine Ahnung wie man die bei der Fragestellung sinnvoll anwendet.
bevorstehende mündliche Prüfung
Re: bevorstehende mündliche Prüfung
logistische regression wüsste ich nicht wie das sinnvoll zur Frage passen soll...Induktiv:
ANOVA: bivariate Varianz Analyse mit aov() perskm ~ Wohnohrttyp + ökonomischer Status des Haushalts
und dann würd ich am liebsten eine logistische Regression einbinden... habe aber keine Ahnung wie man die bei der Fragestellung sinnvoll anwendet.
Aber vergleiche doch lm (ist das gleiche wie aov) vs glm?
Die km-Zahl ist ja rein positiv (oder 0), da würde sich eine Gamma verteilung anbieten. Bringst was das komplexere model zu nehmen? Wo sind die Unterschiede?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Re: bevorstehende mündliche Prüfung
Statt der aov() macht also die glm(..., family=Gamma) mehr Sinn? Oder machen beide Auswerungen nacheinander Sinn?
Prof. ist nen großer Fan von discrete choice Modellen... und hat nen Kasten Bier in den Ring geworfen für Modelle mit Erklärungsgehalten von über 15% (R² oder McFadden-Pseudo-R²).
Für die logistische Reg. könnte man doch die Verkehrsleistung nach Viel und Wenig unterteilen und dann analysieren, welche Faktoren erklären, warum Personen in die Gruppe mit Hoher Verkehrsleistung fallen?
oder bin ich da aufm Holzweg?
Unser Prof hat uns die logistische Reg. nur mit dem mlogit Packet vorgestellt, bei dem man den Datensatz vor Auswertung noch Transponieren muss.
In Base R ist doch die logitische Reg. über glm(..., family = binomial) schon eingebunden, warum geht er dann den aufwändigeren Weg über das Packet?
Danke schonmal für die Unterstützung
Prof. ist nen großer Fan von discrete choice Modellen... und hat nen Kasten Bier in den Ring geworfen für Modelle mit Erklärungsgehalten von über 15% (R² oder McFadden-Pseudo-R²).
Für die logistische Reg. könnte man doch die Verkehrsleistung nach Viel und Wenig unterteilen und dann analysieren, welche Faktoren erklären, warum Personen in die Gruppe mit Hoher Verkehrsleistung fallen?
oder bin ich da aufm Holzweg?
Unser Prof hat uns die logistische Reg. nur mit dem mlogit Packet vorgestellt, bei dem man den Datensatz vor Auswertung noch Transponieren muss.
In Base R ist doch die logitische Reg. über glm(..., family = binomial) schon eingebunden, warum geht er dann den aufwändigeren Weg über das Packet?
Danke schonmal für die Unterstützung
Re: bevorstehende mündliche Prüfung
Hallo!
Eine einfache binär-logistische Regression hat idealerweise eine Zielvariable, die dichotom ist. Wenn man sie erst dichotom machen muss, ist das meist das falsche Vorgehen.
Dichotom sind "Auto vorhanden" und "Führerschein vorhanden" und zu großen Teilen "Geschlecht". So, da könnte man doch jetzt ganz toll herauskriegen, dass größere Haushalte im Dorf eher ein Auto besitzen, weil der Single in der Großstatt mit der U-Bahn zur Arbeit fährt. Wenn Du ein großes (Pseudo-)R^2 haben musst, dann versuch doch mal aus der Zahl der vorhandenen PKW vorherzusagen, ob ein Fahrzeug vorhanden ist...
Für eine coole deskriptivstatik Schau Dir mal Kombinationen aus Bundesland und Verkehrsleistung oder Bundesland und Alter oder Bundesland und ökonomischer Status and und dann google nach "R Choropleth". Damit kann man echte Hingucker erstellen.
JMTC,
Bernhard
Eine einfache binär-logistische Regression hat idealerweise eine Zielvariable, die dichotom ist. Wenn man sie erst dichotom machen muss, ist das meist das falsche Vorgehen.
Dichotom sind "Auto vorhanden" und "Führerschein vorhanden" und zu großen Teilen "Geschlecht". So, da könnte man doch jetzt ganz toll herauskriegen, dass größere Haushalte im Dorf eher ein Auto besitzen, weil der Single in der Großstatt mit der U-Bahn zur Arbeit fährt. Wenn Du ein großes (Pseudo-)R^2 haben musst, dann versuch doch mal aus der Zahl der vorhandenen PKW vorherzusagen, ob ein Fahrzeug vorhanden ist...
Für eine coole deskriptivstatik Schau Dir mal Kombinationen aus Bundesland und Verkehrsleistung oder Bundesland und Alter oder Bundesland und ökonomischer Status and und dann google nach "R Choropleth". Damit kann man echte Hingucker erstellen.
JMTC,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: bevorstehende mündliche Prüfung
haha.. das wäre ja gepfuscht.
Aber der Hinweis auf Choropleth ist Hammer. Ich versuch aufjedenfall die Verkehrsleistung je Bundesland als Karte zu visualisieren.
Bezüglich der Induktiven Methoden bin ich verwirrter als vorher
Aktueller Stand:
-lineare Reg. mit 2 erklärenden Var.[Wohnohrttyp + ökonomischer Status des Haushalts]
verglichen mit
-Gamma regression mit deutlich mehr Erklärenden
Macht es Sinn gewisse Variablen noch zu logarithmieren bevor man die in die Gamma regression schmeißt?
Danke nochmal
Re: bevorstehende mündliche Prüfung
Ich würde die gleichen erklärenden Variablen nutzen und die Modellen gegeneinander stellen:-lineare Reg. mit 2 erklärenden Var.[Wohnohrttyp + ökonomischer Status des Haushalts]
verglichen mit
-Gamma regression mit deutlich mehr Erklärenden
Welches passt besser (AIC, residuen plots, ...)?
Kommen sie zu gleichen aussagen`?
Was sind die Unterschiede (Normal vs Gamma?, Indentity vs log-link? Interpretation der coeffizienten? et cetera)
Das kommt auf die Daten an...Macht es Sinn gewisse Variablen noch zu logarithmieren bevor man die in die Gamma regression schmeißt?
Sinn kann das z.b. machen bei den mit großer Spannweite, sodass man die Einheit der Variable auf "Größenordungen" verändert (bei log10).
Oder bei rechtsschiefen Verteiungen...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Re: bevorstehende mündliche Prüfung
Hallo Bob,
LG,
Bernhard
Ehrlich gesagt verstehe ich die Gegenüberstellung nicht. Was hat die Zahl der Erklärenden mit der Wahl des Modells zu tun? Und wenn Du glaubst, Dein Prof. sei ein großer Fan der logistischen Regression, warum hast Du die schon verworfen?
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: bevorstehende mündliche Prüfung
Danke für die Inputs.
logistisches Reg. Modell ist wieder im Rennen als Fernpendler Analyse.
logistisches Reg. Modell ist wieder im Rennen als Fernpendler Analyse.