Zwei Datasets für Zeitreihenanalyse benutzen

Methoden der Zeitreihenanalyse

Moderator: schubbiaschwilli

Antworten
Joe-Arroyo
Beiträge: 3
Registriert: Mo Apr 26, 2021 11:35 am

Zwei Datasets für Zeitreihenanalyse benutzen

Beitrag von Joe-Arroyo »

Guten Tag alle zusammen,

Meine Frage bezieht sich auf eine Regressionsanalyse, die ich gerne durchführen würde. Meine Datasets beinhalten Informationen über verschiedene rumänische Regionen wie z.B GDP per Capita und Einschulungsquotienten aus der EUROSTAT Datenbank. Meiner Observationen sind identisch sprich für jede Region und jedes Jahr (2000-2019) eine Zahl. Hierfür wäre meine Frage wie ich nun eine Regression durchführen kann, die die Beziehung zwischen meiner abhängigen Variable (GDP per Capita) und meiner unabhängigen, beschreibt. Soweit ich weiß kann ich durch den Befehl
lm(data_set1$y~dataset2$x)
zwei Datenpakete mit derselben Anzahl an Beobachtungen zusammenfügen, jedoch weiß ich nun nicht weiter.
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Beitrag von EDi »

Ich würde die Daten zunächst mal aufbereiten und zusammenpacken, sodass alles in einem data.frame (im langen Format) ist.

Wenn die Daten gut aufbereitet sind, kann man ans modellieren gehen.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Beitrag von bigben »

Hallo Joe,
Joe-Arroyo hat geschrieben: Mo Apr 26, 2021 11:50 amMeine Frage bezieht sich auf eine Regressionsanalyse, die ich gerne durchführen würde. [...] Hierfür wäre meine Frage wie ich nun eine Regression durchführen kann, die die Beziehung zwischen meiner abhängigen Variable (GDP per Capita) und meiner unabhängigen, beschreibt.
Dazu wäre es wichtig zu wissen, was "die unabhängige" ist und wie in dieser Regression mit Regionen und Jahren umgegangen werden soll. Nein, das ist Deiner bisherigen Beschreibung nicht zu entnehmen, da müsstest Du entweder das Ziel der Analyse beschreiben oder sagen, welche Art von Statistik Du rechnen möchtest.
Soweit ich weiß kann ich durch den Befehl
lm(data_set1$y~dataset2$x)
zwei Datenpakete mit derselben Anzahl an Beobachtungen zusammenfügen, jedoch weiß ich nun nicht weiter.
Das ist falsch. Der Befehl lm fügt keine Datenpakete zusammen, berechnet eine lineare Regression. Ich würde ihn aber nie so anwenden sondern immer die zusammengehörigen Daten in einen gemeinsamen Dataframe packen.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Joe-Arroyo
Beiträge: 3
Registriert: Mo Apr 26, 2021 11:35 am

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Beitrag von Joe-Arroyo »

Hallo Bernhard,

vielen Dank für deine Antwort. Ich schätze, ich war zu ungenau in meinem vorherigen Post.

Also meine abhängige Variable sind die GDP pro Kopf Zahlen in den einzelnen Regionen. Hierfür möchte ich eine Regression mit meiner unabhängigen Variable "Einschulungsquote" durchführen um zu ermitteln, wie stark diese mögliche Trends in der GDP Entwicklung beschreibt.

Ich habe nun meine Daten in einen "großen" Datensatz zusammengefasst. Mein Ziel ist es später, durch das Hinzufügen von weiteren Parametern wie R&D Ausgaben und Internet-Konnektivitäts Indikatoren zu prüfen wie Aussagekräftig diese Variablen sind, um ökonomische Entwicklungen darzustellen.

Bitte entschuldigt, falls ich vergesse wichtige Informationen zu erwähnen. Ich bin ein ziemlicher R Novize und würde einfach besser verstehen mit welchen Schritten ich meine Idee umsetzen kann.

LG Joe
Joe-Arroyo
Beiträge: 3
Registriert: Mo Apr 26, 2021 11:35 am

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Beitrag von Joe-Arroyo »

EDi hat geschrieben: Mo Apr 26, 2021 1:18 pm Ich würde die Daten zunächst mal aufbereiten und zusammenpacken, sodass alles in einem data.frame (im langen Format) ist.

Wenn die Daten gut aufbereitet sind, kann man ans modellieren gehen.

Hallo EDi,

vielen Dank für deine Antwort! Das habe ich soeben gemacht (über Excel, da es eine ziemlich mühsame Angelegenheit ist). Nun habe ich meine Dataset in R eingefügt und sehe alle Observationen mit samt Variablen.


LG Joe
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Zwei Datasets für Zeitreihenanalyse benutzen

Beitrag von bigben »

Hallo Joe,
Joe-Arroyo hat geschrieben: Mo Apr 26, 2021 2:53 pmAlso meine abhängige Variable sind die GDP pro Kopf Zahlen in den einzelnen Regionen. Hierfür möchte ich eine Regression mit meiner unabhängigen Variable "Einschulungsquote" durchführen um zu ermitteln, wie stark diese mögliche Trends in der GDP Entwicklung beschreibt.
Persönlich würde ich immer mit einer visuellen Analyse der Daten beginnen, bevor ich irgendwelche Regressionskoeffizienten bemühe. Ich würde also als nächsten eine Punktwolke/Scatterplot zeichnen. Mein Mapping wäre: Einschulungsquote auf die x-Achse, GDPproKopf auf die y-Achse, Jahreszahl als Farbe. Dann bekommt man schon mal ein Gefühl dafür, wie wichtig die Jahreszahl ist und ob Linearität als Annahme sinnvoll ist und ob die Einschulungsquoten sich in den rumänischen Regionen überhaupt ausreichend unterscheiden und...
Ich habe nun meine Daten in einen "großen" Datensatz zusammengefasst.


Das würde man wahrscheinlich verstehen wenn man wüsste, wie die Daten vorher organisiert waren.
Bitte entschuldigt, falls ich vergesse wichtige Informationen zu erwähnen. Ich bin ein ziemlicher R Novize und würde einfach besser verstehen mit welchen Schritten ich meine Idee umsetzen kann.
In einem anderen Forum habe ich mal das hier geschrieben. Vielleicht hilft es auch hier: http://www.statistik-forum.de/nutzung-d ... t6682.html
Und dann hat EDi was wertvolles hier geschrieben: viewtopic.php?f=20&t=11
Und ich hab etwas nur vielleicht relevantes hier geschrieben: viewtopic.php?f=20&t=35
Vielleicht helfen diese drei Links beim Präzisieren.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten