Multiple Regression mit Jahres- und Teamdummies

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

FigrinDan4
Beiträge: 4
Registriert: Fr Jan 04, 2019 12:23 am

Multiple Regression mit Jahres- und Teamdummies

Beitrag von FigrinDan4 » Fr Jan 04, 2019 12:30 am

uten Abend liebe 'R-Forum' Mitglieder,

ich hänge aktuell leider etwas bei der Forschung zu meiner Arbeit. Aus diesem Grunde möchte ich gerne euch um Hilfe bitten. Zu allererst möchte ich euch näher bringen, welche Forschung ich gerade durchführe. Anschließend kann ich euch auch meine ersten Ergebnisse zeigen. Und da happerts gerade ein wenig. Ich tue mir bei der Interpretation der Forschungsergebnisse schwer, eventuell habe ich auch noch einen Fehler eingebaut.

Ich versuche gerade im Fußballbereich den Einfluss von Marktwerten (von Mannschaften) und Ausgaben (für Neuzugänge) auf die sportliche Performance (gemessen anhand der Tabellenposition) der Fußballvereine aus den ersten drei deutschen Profiligen zu testen. Ich habe dazu einen Forschungsbereich von 10 Jahren ausgewählt (entspricht 504 Beobachtungen). Bislange kam ich auch gut voran. Ich musste mich erst im SPSS etwas einlernen um ein vernünftiges Modell aufzustellen. Dieses Modell sieht aktuell so aus:

abhängige Variable: Tabellenplatz der Mannschaft, das bedeutet es gibt den Rang 1 bis hin zum Rang 56 (= letzter Platz der 3. Liga) Ich MUSS für diese Forschung die drei Ligen gemeinsam beobachten.
unabhängige Variablen: durchschnittlicher Marktwert der Spieler einer Mannschaft (bspw. 80 Mio. Gesamtmarktwert / 30 Spieler = 2,6 Mio. Durchschnittsmarktwert) & Ausgaben für Neuzugänge (bspw. 10 Mio. für Neuzugänge). Beide diese Variablen wurden logarithmisiert, da eine große Varianz gegeben ist.

Des Weiteren habe ich auch noch rund 70 Dummies erstellt, die sowohl Team- als auch Jahresdummies darstellen sollen. Diese Dummyvariablen habe ich ebenfalls im SPSS als unabhängige Variablen eingefügt. Ich habe sowohl ein Referenzteam, als auch ein Referenzjahr ausgewählt.
Werden diese Jahres- und Teamdummies als unabhängige Variable geführt?

Durch diese Vorgehensweise habe ich es geschafft das angepasste R² auf eine Höhe von 0,88 zu bekommen. Das Modell besitzt also eine gute Güte.

Allerdings tue ich mich schwer beim Interpretieren der unstandartisierten Koefizienten. Hier ein Beispiel:

Die unabhängige Variable logDurchschnittMW hat einen Beta-Wert von -25,309. Das würde bedeuten, wenn der Marktwert um eine Standardabweichung sinkt, fällt das Team um 25 Plätze. Liege ich hier richtig?

Nun gibt es noch die Jahresdummies. Diese Dummies weisen die Betawerte - 1,503 (2008), -0,772 (2009), -0,683 (2010), -0,055 (2011), - 0,150 (2013), 0,865 (2014) und 1,585 (2015) auf. Das Referenzjahr ist das Jahr 2012. Wie können diese Zahlen interpretiert werden?

Ich hoffe ich konnte euch meine Fragestellung etwas näher bringen. Gerne könnte ich euch auch meine Ergebnisse schicken (diese Ergebnisse zu beschreiben ist eher schwer). Sollte irgendetwas verwirrend geschrieben worden sein oder nicht ausführlich genug, so bitte ich um eure Kommentare. Wie ihr sicher schon merkt bin ich absolut kein Profi bei multiplen Regressionen.

Ich möchte mich im Vorraus für eure Hilfe bedanken!

Beste Grüße

Benutzeravatar
EDi
Beiträge: 753
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Multiple Regression mit Jahres- und Teamdummies

Beitrag von EDi » Fr Jan 04, 2019 10:20 am

Was hat das mit R zu tun?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.

schubbiaschwilli
Beiträge: 20
Registriert: Di Jun 27, 2017 12:09 pm

Re: Multiple Regression mit Jahres- und Teamdummies

Beitrag von schubbiaschwilli » Fr Jan 04, 2019 11:32 am

Gude!

Wenn ich das recht verstehe, machst du eine Regression in der Form:

[Tabellenplatz am Ende der Saison] = beta1 * [durchschnittlicher Marktwert der Spieler am Anfang der Saison] + beta2 * [Ausgaben für Neuzugänge in der Saison] + ...

Du hast 56 Mannschaften, und 10 Jahre (also 9 mal Anfang und Ende der Saison), dann komme ich auf deine 504 Beobachtungen, richtig?

"Die unabhängige Variable logDurchschnittMW hat einen Beta-Wert von -25,309. Das würde bedeuten, wenn der Marktwert um eine Standardabweichung sinkt, fällt das Team um 25 Plätze. Liege ich hier richtig?"
In diesem Fall bedeutet dies, dass eine Einheit mehr (wobei ich jetzt keine Ahnung habe, was eine Einheit ist, also 1 Euro oder 10 Mio Euro) dazu führt, dass man erwarten kann, dass die Mannschaft um 25 Plätze fällt. Da du die log-Werte genommen hast, musst du die Werte umrechnen.

Das ist aber nicht der Punkt - Ich denke, dass hier eine solche Regression nicht passt, und zwar aus 2 Gründen:

1. Der Tabellenplatz (1-56) (die abhängige Variable) ist ja nicht für jede Mannschaft erreichbar (wenn ich das richtig verstehe): Eine Mannschaft aus der 1. Liga kann ja nur die Plätz 1-18 belegen, aus der 2. 19-36 usw. - Abgesehen davon, dass du davon ausgehst, dass der 18. besser ist als der 19.
Davon abgesehen ist die abhängige Variable ein Rang (eine Ordinalskala), und nicht Metrisch - Lineare Regressionen sind zwar robust, aber ich denke, hier knirscht es.

2. Du vergleichst 3 Ligen miteinander - Mir kommen hier Äpfel und Birnen in den Sinn. Du hast ja schon geschrieben, dass die Beträge sich um Größenordnungen unterscheiden, und ich könnte mir vorstellen, dass es hier systematische Unterschiede gibt, wie die Regressoren die Zielgröße beeinflussen. Oder anders gesagt: Ich denke, dass hier Stichproben aus verschiedenen Grundgesamtheiten vorliegen.

Dank&Gruß
schubbiaschwilli

FigrinDan4
Beiträge: 4
Registriert: Fr Jan 04, 2019 12:23 am

Re: Multiple Regression mit Jahres- und Teamdummies

Beitrag von FigrinDan4 » Fr Jan 04, 2019 12:33 pm

Hallo schubbiaschwilli,

vielen Dank für deine Antwort. Das Modell ist so gesehen mit meinem Betreuer genau so abgesprochen, ich ging also schon davon aus, dass es passt. Dazu folgende Anmerkungen zu deinen Punkten:

1. Mannschaften können in den 10 Jahren sehr wohl jede Platzierung erreichen. Sie können ja aus der Liga auf- bzw. absteigen. Es gibt auch Mannschaften (z.B. RB Leipzig oder SV Darmstadt) die im beobachteten Zeitraum in allen drei Ligen zu finden sind.
Du hast Recht, dass die Variable eine ordinal skalierte Variable ist.

2. Ich bin ganz deiner Meinung. Allerdings wurde mir vorgegeben, dass ich alle drei Ligen miteinander vergleichen soll. Der höchste Durchschnittsmarktwert einer Mannschaft liegt bei 24,62 Mio. (FC Bayern), der niedrigste liegt bei 0,17 Mio. (Zwickau aus der 3. Liga).

Nachdem mein Betreuer die ersten Ergebnisse schon gesehen hat und für gut gefunden hat, denke ich, dass ich das Modell so lassen darf.

Zwei weitere Fragen stellen sich mir noch:

1. Wie kann ich die logarithmisierte Standardabweichung umrechnen? Sodass ich sagen kann, die Mannschaft fällt um 25 Tabellenplätze wenn sich der Marktwert um x Mio. verringert?

2. Wie sind die Dummyvariablen zu verstehen? Hast du hier auch vielleicht einen Tipp für mich? Die Jahres- und Teamdummies sind für mich leider nicht zu interpretieren.

@EDi: Tut mir Leid, ich dachte die Thematik passt hier rein, da es sich um eine Regression handelt. Ich hoffe das Thema bleibt trotzdem offen, da ich mich auf die Informationen von euch freue.

Beste Grüße.

schubbiaschwilli
Beiträge: 20
Registriert: Di Jun 27, 2017 12:09 pm

Re: Multiple Regression mit Jahres- und Teamdummies

Beitrag von schubbiaschwilli » Fr Jan 04, 2019 12:56 pm

Gude!

Dann ist nicht dies dein Modell:

[Tabellenplatz am Ende der Saison] = beta1 * [durchschnittlicher Marktwert der Spieler am Anfang der Saison] + beta2 * [Ausgaben für Neuzugänge in der Saison] + ...

Sondern dieses?

[Tabellenplatz am Ende der Saison #10] = beta1 * [durchschnittlicher Marktwert der Spieler am Anfang der Saison #1] +
beta2 * [durchschnittlicher Marktwert der Spieler am Anfang der Saison #2] + beta3 * [durchschnittlicher Marktwert der Spieler am Anfang der Saison #3] + ... + beta10 * [Ausgaben für Neuzugänge in der Saison #1] + beta11 * [Ausgaben für Neuzugänge in der Saison #2] + beta12 * [Ausgaben für Neuzugänge in der Saison #3] + ...

Dank&Gruß
schubbiaschwilli

FigrinDan4
Beiträge: 4
Registriert: Fr Jan 04, 2019 12:23 am

Re: Multiple Regression mit Jahres- und Teamdummies

Beitrag von FigrinDan4 » Fr Jan 04, 2019 1:03 pm

Hallo schubbiaschwilli,

also meine Daten sind nach Jahren geordnet. Das heißt für jedes Jahr nehmen die Mannschaften neue Durchschnittswerte bzw. neue Platzierungen an. Also denke ich, dass das zweite Modell mein Modell sein sollte.

Hast du dazu noch Tipps für mich bzw. könntest du mir Infos über die oben genannten Fragestellungen geben? Oder fehlt dir dazu noch weitere Information?

Beste Grüße und vielen Dank für deine Hilfe.

schubbiaschwilli
Beiträge: 20
Registriert: Di Jun 27, 2017 12:09 pm

Re: Multiple Regression mit Jahres- und Teamdummies

Beitrag von schubbiaschwilli » Fr Jan 04, 2019 1:21 pm

Gude!

"Also denke ich, dass das zweite Modell mein Modell sein sollte."
Das solltest du wissen, denn du gibst das Modell vor - Und wenn du dies nicht weißt...

Kann es sein, dass du und dein Betreuer sich von dem r^2 von 0,88 haben blenden lassen, sprich ihr seht das erwartete Ergebnis, und alles ist gut? Dass der Marktwert einer Mannschaft ziemlich stark mit der Leistung (= Tabellenplatz) korreliert, naja, das bekommen die Kleinen aus der Pampersliga hin, auf der anderen Seite aber ein negatives Beta bei "logDurchschnittMW" (welches Jahr eigentlich?) - Ich denke mal, es lohnt sich das Modell genauer zu betrachten.

Nachtrag: Da es hier ja nicht um die Leistung (mehr=besser), sondern um den Tabellenplatz (weniger=besser) geht, ergibt ein negatives Beta an dieser Stelle Sinn.

Dank&Gruß
schubbiaschwilli

FigrinDan4
Beiträge: 4
Registriert: Fr Jan 04, 2019 12:23 am

Re: Multiple Regression mit Jahres- und Teamdummies

Beitrag von FigrinDan4 » Fr Jan 04, 2019 3:58 pm

Hallo schubbiaschwilli,

leider spiele ich in der Pampersliga. ;)

Ich kann mit diesen Regressionsmodellen nichts anfangen. Ich könnte dir die Unterschiede zwischen den beiden Modellen, die du mir genannt hast, nicht darstellen. Es ist halt eine andere Formel...
Aber ich denke mal, wenn der Betreuer sagt die Ergebnisse sind plausibel, dann werde ich das so niederschreiben.

Die variable "logDurchschnitt" bezieht alle Jahre mit ein. Also Mannschaft X hat im Jahr 2015 den Durchschnitt X, im Jahr 2014 den Durchschnitt Y, usw.

Könntest du noch auf meine Fragestellung bezüglich Umwandlung vom Logarithmus und Dummyvariablen eingehen? Das wäre wichtig für die Beantwortung meiner Forschungsfrage bzw. Hypothesen.

Nachtrag: Hilft es dir vielleicht wenn ich dir die gesamten Ergebnisse zukommen lasse?

Beste Grüße.

schubbiaschwilli
Beiträge: 20
Registriert: Di Jun 27, 2017 12:09 pm

Re: Multiple Regression mit Jahres- und Teamdummies

Beitrag von schubbiaschwilli » Fr Jan 04, 2019 4:43 pm

Gude!

Tja, ohne Modell kann und wird dir wohl niemand eine Auskunft geben können - Ich für meinen Teil kann es nicht, und ich habe nicht mal eine Ahnung, was deine Dummyvariablen genau sind bzw. wo sie stehen. Ich kann dir an dieser Stelle nur empfehlen, die entsprechende SPSS-Doku zu lesen (ich hab' die Doku das letzte mal bestimmt vor ~10 Jahren gesehen und auch damals das letzte mal damit gearbeitet, und damals war die Doku lesenswert) - Es hilft auch, die Beispiele aus der Doku mal nachzubauen.

Dank&Gruß
schubbiaschwilli

Hufeisen
Beiträge: 36
Registriert: Fr Aug 31, 2018 6:34 pm

Re: Multiple Regression mit Jahres- und Teamdummies

Beitrag von Hufeisen » Fr Jan 04, 2019 5:30 pm

Für das Zurückrechnen deiner Regressionskoeffizienten empfehle ich folgendes Dokument, das alle Variationen von linear-linear bis log-log bespricht, die Rechenregeln für Logarithmen angibt (wenn man die, wie ich, ständig vergisst) und auch Beispiele rechnet: hier.
Ansonsten wäre tatsächlich das Modell sehr hilfreich. Etwas verwunderlich ist, dass das Modell, so wie du es bisher beschrieben hast, von deinem Betreuer für gut befunden wird. Es wird mit ordinal skalierten Zeitreihendaten ein lineares Regressionsmodell gerechnet. Bei einer einzigen Liga könnte man wohl noch argumentieren, dass die Ränge so gut wie intervallskaliert sind, aber der Unterschied zwischen Rang 18 und 19 ist doch sicherlich qualitativer Natur (das wurde ja schon angemerkt). Darüber hinaus dürften die Daten stark autokorreliert sein "Bayern wird immer Meister". :?:

Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste