Hallo Zusammen,
in der Uni beschäftigen wir uns ein wenig mit der Vorhersagemodellierung mit R.
Nun habe ich durch Recherche herausgefunden, dass es wohl verschiedene Ansätze/Methoden hierzu gibt.
Leider ist mir nun nicht genau klar, mit welchem Ansatz/Methode ich am besten an mein Ziel komme.
Die Fragestellung ist folgende:
- Konstruieren Sie ein Modell auf Basis der Trainingsdaten und sagen Sie für die Anwendungsdaten x0 die Zielvariable ˆy0 vorraus.
Zur Bewertung der Vorhersagegüte wird der mittlere absolute Fehler MAE (mean absolute error) auf die Anwendungsdaten herangezogen.
Gefunden zur Vorhersage hatte ich nun folgende Methoden:
- lineare Regression
- Baumverfahren
- Neuronale Netze
Folgende Tipps haben wir noch bekommen:
- Vermeiden Sie Über-Anpassung
- Evtl. kann eine Datenvorverarbeitung (Variablentransformation, z.B. log() oder die Elimination von Ausreißern) helfen.
Könnt Ihr mir aufgrund der genannten Informationen Tipps geben welchen Ansatz/Methode ich wählen muss?
Gibt es noch weitere bisher nicht berücksichtigte Variablen?
Ich hoffe Ihr könnt mir helfen.
Vielen Dank im voraus.
LG
Chris
Vorhersagemodellierung
-
- Beiträge: 1
- Registriert: Sa Nov 16, 2019 11:41 am
Vorhersagemodellierung
Zuletzt geändert von Figurant328 am Sa Nov 16, 2019 11:58 pm, insgesamt 2-mal geändert.
Re: Vorhersagemodellierung
So ein Beitrag lässt sich auch nachträglich editieren, wenn irgendwas schiefgegangen ist!
Das gilt zwar als ganz schlechter Stil, wenn dadurch die Aussage verändert wird - aber in Deinem Fall wäre eine Überarbeitung wohl eher hilfreich !
Das gilt zwar als ganz schlechter Stil, wenn dadurch die Aussage verändert wird - aber in Deinem Fall wäre eine Überarbeitung wohl eher hilfreich !
-
- Beiträge: 253
- Registriert: Di Jun 27, 2017 12:09 pm
Re: Vorhersagemodellierung
Gude!
Um die nächste Frage zu beantworten: Wie soll ich vorgehen bzw. was soll ich jetzt tun?
Ich würde einfach mal als ersten Schritt eine lineare Regression durchführen. Die erste mit allen verfügbaren Einflussgrößen durchführen, und mir das Ergebnis anschauen bzw. die Residuen analysieren. Vielleicht ist es ja gar kein linearer Zusammenhang? In diesem Fall würde ich nach nicht-linearen Zusammenhängen schauen - Dann kommen die Transformationen ins Spiel. Oder die Einflussgrößen, die wenig bzw. keinen Einfluss haben, aus der Regression eliminieren (stepwise regression oder sowas).
Hast du das gemacht, hast du schon mehrere Modelle, die du mit dem mittleren absoluten Fehler beurteilen kannst. Und wenn du den MAE der Trainingsmenge mit dem MAE der Testmenge vergleichst, findest du auch Modelle, die zu Overfitting neigen.
Dann kannst du andere Verfahren ausprobieren, und hast eine Benchmark, die es zu schlagen gilt.
Dank&Gruß
schubbiaschwilli
Auch wenn dir das jetzt erst mal nicht weiterhelfen wird: Das wird dir niemand sagen können. Aber: Das ist auch nicht die Aufgabe. So, wie ich das jetzt verstehe, besteht die Aufgabe darin, die von dir aufgezählten Verfahren auszuprobieren, damit du ein Gefühl dafür bekommst, um was es überhaupt geht.Könnt Ihr mir aufgrund der genannten Informationen Tipps geben welchen Ansatz/Methode ich wählen muss?
Um die nächste Frage zu beantworten: Wie soll ich vorgehen bzw. was soll ich jetzt tun?
Ich würde einfach mal als ersten Schritt eine lineare Regression durchführen. Die erste mit allen verfügbaren Einflussgrößen durchführen, und mir das Ergebnis anschauen bzw. die Residuen analysieren. Vielleicht ist es ja gar kein linearer Zusammenhang? In diesem Fall würde ich nach nicht-linearen Zusammenhängen schauen - Dann kommen die Transformationen ins Spiel. Oder die Einflussgrößen, die wenig bzw. keinen Einfluss haben, aus der Regression eliminieren (stepwise regression oder sowas).
Hast du das gemacht, hast du schon mehrere Modelle, die du mit dem mittleren absoluten Fehler beurteilen kannst. Und wenn du den MAE der Trainingsmenge mit dem MAE der Testmenge vergleichst, findest du auch Modelle, die zu Overfitting neigen.
Dann kannst du andere Verfahren ausprobieren, und hast eine Benchmark, die es zu schlagen gilt.
Dank&Gruß
schubbiaschwilli
Re: Vorhersagemodellierung
Hier mal ein Beispiel: https://rviews.rstudio.com/2019/06/19/a ... idymodels/Könnt Ihr mir aufgrund der genannten Informationen Tipps geben welchen Ansatz/Methode ich wählen muss?
Oder hier ein Beispiel mit dem Vorgänger von tidymodels, "caret": http://www.rpubs.com/StephanieStallworth/269560
Deine Frage ist super wage & breit und kann auch unendlich viele Arten und weisen beantwortet werden. Die Zeit Beispiele nutzen ganze frameworks - die sind super und machen einem das Leben einfacher. Ich weiß nur nicht ob das die Intention von deinem Professor ist.
Ansonsten kann man die Schritte auch alle mit base-R durchführen:
1) Trainings / Testdatensplit kann man mit sample() machen
2) lm fitten für das Model -> lm()
3) aus dem lm die residuen ziehen (für den MAE) -> residuals() & abs()
4) vorhersage: predict()
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.