bevorstehende mündliche Prüfung

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
Bob
Beiträge: 4
Registriert: Do Feb 10, 2022 11:43 am

bevorstehende mündliche Prüfung

Beitrag von Bob »

Moin moin Zusammen! [Prüfung findet am 17.02 statt]
Ich bin auf der Suche nach Experten Meinungen zu folgender Situation:

Aufgabenstellung:
10 minütige Vorstellung eines vorbereiteten R-Codes, mit einer gewichteten deskriptiven und zwei induktiven Methoden.

Welchen Einfluss hat der "Wohnort Typ" auf die Verkehrsleistung[km] einer Person?

Wie würdet ihr da vorgehen? Welche Methoden könnt ihr empfehlen und warum?

Der vorgegebene Datensatz enthält Angaben von 10.000 Personen zu:

Auto vorhanden J/N
Geschlecht
Alter
Führerschein vorhanden J/N
Tätigkeitsgruppe
Anzahl vorhandener PKW
Anzahl Wege
Verkehrsleistung[km] = Y
Verkehrsleistung[min]
Größe des Haushalts
ökonomischer Status des Haushalts
Bundesland
zusammengefasster regionalstatistischer Gemeindetyp "Wohnort Typ" =X

Gewichtungsfaktor Personen
Hochrechnungsfaktor Personen
______________________________________

Meine Überlegungen soweit:

deskriptiv: einfache Visualisierung der Häufigkeit der Wohnorttypen, Verteilung der PersKM und eine Boxplot darstellung von den Wohnorttypen nach KM

Induktiv:
ANOVA: bivariate Varianz Analyse mit aov() perskm ~ Wohnohrttyp + ökonomischer Status des Haushalts
und dann würd ich am liebsten eine logistische Regression einbinden... habe aber keine Ahnung wie man die bei der Fragestellung sinnvoll anwendet.
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: bevorstehende mündliche Prüfung

Beitrag von EDi »

Induktiv:
ANOVA: bivariate Varianz Analyse mit aov() perskm ~ Wohnohrttyp + ökonomischer Status des Haushalts
und dann würd ich am liebsten eine logistische Regression einbinden... habe aber keine Ahnung wie man die bei der Fragestellung sinnvoll anwendet.
logistische regression wüsste ich nicht wie das sinnvoll zur Frage passen soll...

Aber vergleiche doch lm (ist das gleiche wie aov) vs glm?
Die km-Zahl ist ja rein positiv (oder 0), da würde sich eine Gamma verteilung anbieten. Bringst was das komplexere model zu nehmen? Wo sind die Unterschiede?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Bob
Beiträge: 4
Registriert: Do Feb 10, 2022 11:43 am

Re: bevorstehende mündliche Prüfung

Beitrag von Bob »

Statt der aov() macht also die glm(..., family=Gamma) mehr Sinn? Oder machen beide Auswerungen nacheinander Sinn?

Prof. ist nen großer Fan von discrete choice Modellen... und hat nen Kasten Bier in den Ring geworfen für Modelle mit Erklärungsgehalten von über 15% (R² oder McFadden-Pseudo-R²).

Für die logistische Reg. könnte man doch die Verkehrsleistung nach Viel und Wenig unterteilen und dann analysieren, welche Faktoren erklären, warum Personen in die Gruppe mit Hoher Verkehrsleistung fallen?
oder bin ich da aufm Holzweg?

Unser Prof hat uns die logistische Reg. nur mit dem mlogit Packet vorgestellt, bei dem man den Datensatz vor Auswertung noch Transponieren muss.
In Base R ist doch die logitische Reg. über glm(..., family = binomial) schon eingebunden, warum geht er dann den aufwändigeren Weg über das Packet?

Danke schonmal für die Unterstützung
bigben
Beiträge: 2778
Registriert: Mi Okt 12, 2016 9:09 am

Re: bevorstehende mündliche Prüfung

Beitrag von bigben »

Hallo!

Eine einfache binär-logistische Regression hat idealerweise eine Zielvariable, die dichotom ist. Wenn man sie erst dichotom machen muss, ist das meist das falsche Vorgehen.

Dichotom sind "Auto vorhanden" und "Führerschein vorhanden" und zu großen Teilen "Geschlecht". So, da könnte man doch jetzt ganz toll herauskriegen, dass größere Haushalte im Dorf eher ein Auto besitzen, weil der Single in der Großstatt mit der U-Bahn zur Arbeit fährt. Wenn Du ein großes (Pseudo-)R^2 haben musst, dann versuch doch mal aus der Zahl der vorhandenen PKW vorherzusagen, ob ein Fahrzeug vorhanden ist...

Für eine coole deskriptivstatik Schau Dir mal Kombinationen aus Bundesland und Verkehrsleistung oder Bundesland und Alter oder Bundesland und ökonomischer Status and und dann google nach "R Choropleth". Damit kann man echte Hingucker erstellen.

JMTC,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Bob
Beiträge: 4
Registriert: Do Feb 10, 2022 11:43 am

Re: bevorstehende mündliche Prüfung

Beitrag von Bob »

bigben hat geschrieben: Fr Feb 11, 2022 9:19 pm Wenn Du ein großes (Pseudo-)R^2 haben musst, dann versuch doch mal aus der Zahl der vorhandenen PKW vorherzusagen, ob ein Fahrzeug vorhanden ist...
haha.. das wäre ja gepfuscht.
Aber der Hinweis auf Choropleth ist Hammer. Ich versuch aufjedenfall die Verkehrsleistung je Bundesland als Karte zu visualisieren.

Bezüglich der Induktiven Methoden bin ich verwirrter als vorher ;)
Aktueller Stand:


-lineare Reg. mit 2 erklärenden Var.[Wohnohrttyp + ökonomischer Status des Haushalts]
verglichen mit
-Gamma regression mit deutlich mehr Erklärenden

Macht es Sinn gewisse Variablen noch zu logarithmieren bevor man die in die Gamma regression schmeißt?

Danke nochmal ;)
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: bevorstehende mündliche Prüfung

Beitrag von EDi »

-lineare Reg. mit 2 erklärenden Var.[Wohnohrttyp + ökonomischer Status des Haushalts]
verglichen mit
-Gamma regression mit deutlich mehr Erklärenden
Ich würde die gleichen erklärenden Variablen nutzen und die Modellen gegeneinander stellen:
Welches passt besser (AIC, residuen plots, ...)?
Kommen sie zu gleichen aussagen`?
Was sind die Unterschiede (Normal vs Gamma?, Indentity vs log-link? Interpretation der coeffizienten? et cetera)

Macht es Sinn gewisse Variablen noch zu logarithmieren bevor man die in die Gamma regression schmeißt?
Das kommt auf die Daten an...
Sinn kann das z.b. machen bei den mit großer Spannweite, sodass man die Einheit der Variable auf "Größenordungen" verändert (bei log10).
Oder bei rechtsschiefen Verteiungen...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2778
Registriert: Mi Okt 12, 2016 9:09 am

Re: bevorstehende mündliche Prüfung

Beitrag von bigben »

Hallo Bob,
Bob hat geschrieben: Sa Feb 12, 2022 12:18 pmAktueller Stand:


-lineare Reg. mit 2 erklärenden Var.[Wohnohrttyp + ökonomischer Status des Haushalts]
verglichen mit
-Gamma regression mit deutlich mehr Erklärenden
Ehrlich gesagt verstehe ich die Gegenüberstellung nicht. Was hat die Zahl der Erklärenden mit der Wahl des Modells zu tun? Und wenn Du glaubst, Dein Prof. sei ein großer Fan der logistischen Regression, warum hast Du die schon verworfen?

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Bob
Beiträge: 4
Registriert: Do Feb 10, 2022 11:43 am

Re: bevorstehende mündliche Prüfung

Beitrag von Bob »

Danke für die Inputs.

logistisches Reg. Modell ist wieder im Rennen als Fernpendler Analyse.
Antworten