Seite 1 von 1

Vorhersagemodellierung

Verfasst: Sa Nov 16, 2019 11:54 am
von Figurant328
Hallo Zusammen,

in der Uni beschäftigen wir uns ein wenig mit der Vorhersagemodellierung mit R.

Nun habe ich durch Recherche herausgefunden, dass es wohl verschiedene Ansätze/Methoden hierzu gibt.

Leider ist mir nun nicht genau klar, mit welchem Ansatz/Methode ich am besten an mein Ziel komme.

Die Fragestellung ist folgende:
- Konstruieren Sie ein Modell auf Basis der Trainingsdaten und sagen Sie für die Anwendungsdaten x0 die Zielvariable ˆy0 vorraus.

Zur Bewertung der Vorhersagegüte wird der mittlere absolute Fehler MAE (mean absolute error) auf die Anwendungsdaten herangezogen.

Gefunden zur Vorhersage hatte ich nun folgende Methoden:
- lineare Regression
- Baumverfahren
- Neuronale Netze

Folgende Tipps haben wir noch bekommen:
- Vermeiden Sie Über-Anpassung
- Evtl. kann eine Datenvorverarbeitung (Variablentransformation, z.B. log() oder die Elimination von Ausreißern) helfen.

Könnt Ihr mir aufgrund der genannten Informationen Tipps geben welchen Ansatz/Methode ich wählen muss?
Gibt es noch weitere bisher nicht berücksichtigte Variablen?

Ich hoffe Ihr könnt mir helfen.

Vielen Dank im voraus.

LG
Chris

Re: Vorhersagemodellierung

Verfasst: Sa Nov 16, 2019 4:05 pm
von Athomas
So ein Beitrag lässt sich auch nachträglich editieren, wenn irgendwas schiefgegangen ist!

Das gilt zwar als ganz schlechter Stil, wenn dadurch die Aussage verändert wird - aber in Deinem Fall wäre eine Überarbeitung wohl eher hilfreich :D !

Re: Vorhersagemodellierung

Verfasst: So Nov 17, 2019 1:59 am
von schubbiaschwilli
Gude!
Könnt Ihr mir aufgrund der genannten Informationen Tipps geben welchen Ansatz/Methode ich wählen muss?
Auch wenn dir das jetzt erst mal nicht weiterhelfen wird: Das wird dir niemand sagen können. Aber: Das ist auch nicht die Aufgabe. So, wie ich das jetzt verstehe, besteht die Aufgabe darin, die von dir aufgezählten Verfahren auszuprobieren, damit du ein Gefühl dafür bekommst, um was es überhaupt geht.
Um die nächste Frage zu beantworten: Wie soll ich vorgehen bzw. was soll ich jetzt tun?
Ich würde einfach mal als ersten Schritt eine lineare Regression durchführen. Die erste mit allen verfügbaren Einflussgrößen durchführen, und mir das Ergebnis anschauen bzw. die Residuen analysieren. Vielleicht ist es ja gar kein linearer Zusammenhang? In diesem Fall würde ich nach nicht-linearen Zusammenhängen schauen - Dann kommen die Transformationen ins Spiel. Oder die Einflussgrößen, die wenig bzw. keinen Einfluss haben, aus der Regression eliminieren (stepwise regression oder sowas).
Hast du das gemacht, hast du schon mehrere Modelle, die du mit dem mittleren absoluten Fehler beurteilen kannst. Und wenn du den MAE der Trainingsmenge mit dem MAE der Testmenge vergleichst, findest du auch Modelle, die zu Overfitting neigen.
Dann kannst du andere Verfahren ausprobieren, und hast eine Benchmark, die es zu schlagen gilt.

Dank&Gruß
schubbiaschwilli

Re: Vorhersagemodellierung

Verfasst: So Nov 17, 2019 3:09 pm
von EDi
Könnt Ihr mir aufgrund der genannten Informationen Tipps geben welchen Ansatz/Methode ich wählen muss?
Hier mal ein Beispiel: https://rviews.rstudio.com/2019/06/19/a ... idymodels/

Oder hier ein Beispiel mit dem Vorgänger von tidymodels, "caret": http://www.rpubs.com/StephanieStallworth/269560


Deine Frage ist super wage & breit und kann auch unendlich viele Arten und weisen beantwortet werden. Die Zeit Beispiele nutzen ganze frameworks - die sind super und machen einem das Leben einfacher. Ich weiß nur nicht ob das die Intention von deinem Professor ist.


Ansonsten kann man die Schritte auch alle mit base-R durchführen:

1) Trainings / Testdatensplit kann man mit sample() machen
2) lm fitten für das Model -> lm()
3) aus dem lm die residuen ziehen (für den MAE) -> residuals() & abs()
4) vorhersage: predict()