Vorhersagemodellierung

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
Figurant328
Beiträge: 1
Registriert: Sa Nov 16, 2019 11:41 am

Vorhersagemodellierung

Beitrag von Figurant328 »

Hallo Zusammen,

in der Uni beschäftigen wir uns ein wenig mit der Vorhersagemodellierung mit R.

Nun habe ich durch Recherche herausgefunden, dass es wohl verschiedene Ansätze/Methoden hierzu gibt.

Leider ist mir nun nicht genau klar, mit welchem Ansatz/Methode ich am besten an mein Ziel komme.

Die Fragestellung ist folgende:
- Konstruieren Sie ein Modell auf Basis der Trainingsdaten und sagen Sie für die Anwendungsdaten x0 die Zielvariable ˆy0 vorraus.

Zur Bewertung der Vorhersagegüte wird der mittlere absolute Fehler MAE (mean absolute error) auf die Anwendungsdaten herangezogen.

Gefunden zur Vorhersage hatte ich nun folgende Methoden:
- lineare Regression
- Baumverfahren
- Neuronale Netze

Folgende Tipps haben wir noch bekommen:
- Vermeiden Sie Über-Anpassung
- Evtl. kann eine Datenvorverarbeitung (Variablentransformation, z.B. log() oder die Elimination von Ausreißern) helfen.

Könnt Ihr mir aufgrund der genannten Informationen Tipps geben welchen Ansatz/Methode ich wählen muss?
Gibt es noch weitere bisher nicht berücksichtigte Variablen?

Ich hoffe Ihr könnt mir helfen.

Vielen Dank im voraus.

LG
Chris
Zuletzt geändert von Figurant328 am Sa Nov 16, 2019 11:58 pm, insgesamt 2-mal geändert.
Athomas
Beiträge: 768
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Vorhersagemodellierung

Beitrag von Athomas »

So ein Beitrag lässt sich auch nachträglich editieren, wenn irgendwas schiefgegangen ist!

Das gilt zwar als ganz schlechter Stil, wenn dadurch die Aussage verändert wird - aber in Deinem Fall wäre eine Überarbeitung wohl eher hilfreich :D !
schubbiaschwilli
Beiträge: 253
Registriert: Di Jun 27, 2017 12:09 pm

Re: Vorhersagemodellierung

Beitrag von schubbiaschwilli »

Gude!
Könnt Ihr mir aufgrund der genannten Informationen Tipps geben welchen Ansatz/Methode ich wählen muss?
Auch wenn dir das jetzt erst mal nicht weiterhelfen wird: Das wird dir niemand sagen können. Aber: Das ist auch nicht die Aufgabe. So, wie ich das jetzt verstehe, besteht die Aufgabe darin, die von dir aufgezählten Verfahren auszuprobieren, damit du ein Gefühl dafür bekommst, um was es überhaupt geht.
Um die nächste Frage zu beantworten: Wie soll ich vorgehen bzw. was soll ich jetzt tun?
Ich würde einfach mal als ersten Schritt eine lineare Regression durchführen. Die erste mit allen verfügbaren Einflussgrößen durchführen, und mir das Ergebnis anschauen bzw. die Residuen analysieren. Vielleicht ist es ja gar kein linearer Zusammenhang? In diesem Fall würde ich nach nicht-linearen Zusammenhängen schauen - Dann kommen die Transformationen ins Spiel. Oder die Einflussgrößen, die wenig bzw. keinen Einfluss haben, aus der Regression eliminieren (stepwise regression oder sowas).
Hast du das gemacht, hast du schon mehrere Modelle, die du mit dem mittleren absoluten Fehler beurteilen kannst. Und wenn du den MAE der Trainingsmenge mit dem MAE der Testmenge vergleichst, findest du auch Modelle, die zu Overfitting neigen.
Dann kannst du andere Verfahren ausprobieren, und hast eine Benchmark, die es zu schlagen gilt.

Dank&Gruß
schubbiaschwilli
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Vorhersagemodellierung

Beitrag von EDi »

Könnt Ihr mir aufgrund der genannten Informationen Tipps geben welchen Ansatz/Methode ich wählen muss?
Hier mal ein Beispiel: https://rviews.rstudio.com/2019/06/19/a ... idymodels/

Oder hier ein Beispiel mit dem Vorgänger von tidymodels, "caret": http://www.rpubs.com/StephanieStallworth/269560


Deine Frage ist super wage & breit und kann auch unendlich viele Arten und weisen beantwortet werden. Die Zeit Beispiele nutzen ganze frameworks - die sind super und machen einem das Leben einfacher. Ich weiß nur nicht ob das die Intention von deinem Professor ist.


Ansonsten kann man die Schritte auch alle mit base-R durchführen:

1) Trainings / Testdatensplit kann man mit sample() machen
2) lm fitten für das Model -> lm()
3) aus dem lm die residuen ziehen (für den MAE) -> residuals() & abs()
4) vorhersage: predict()
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten