Ich habe ein kleines Verständnis-Problem vielleicht kann mir jemand helfen?
Ich habe ein multiples Regressionsmodell (reg.mod) erstellt und möchte nun die Korrelation zwischen den tatsächlichen und den vorhergesagten Werten bestimmen, um zu sehen, wie gut das Modell funktioniert.
y.predict<-predict.lm(reg.mod) #Werte vorhersagen mit der Funktion predict()
y.actual<-kg #Vektor mit den tatsächlichen Werten
y.actual.predict<-cbind(y.actual, y.predict)
cor(y.actual.predict, use="pairwise.complete.obs") #Korrelation berechnen
Als Ergebnis erhalte ich eine Korrelation von 0,89. Eine so hohe Korrelation würde ich aufgrund meiner Daten als falsch einstufen. Kann mir jemand sagen,, ob in meinen R-Codes oben ein Fehler vorliegt?
Das R² liegt bei "nur" 0,458, weshalb ich eine Korrelation von 0,89 als falsch einstufen würde.
Ich hätte noch eine weitere Frage, die Du mir evtl beantworten kannst: Nach welchem Kriterium wähle ich mein Regressionsmodell aus? Achte ich wirklich nur auf das R² bzw. auf das adjustierte R² oder besser doch auf den root mean squared error? Und warum?
keine 230 eingeschlossenen Fälle bei achzigtausend Nicht-Eingeschlossenen? Das ist Dir bestimmt aufgefallen bzw. war hoffentlich so geplant. Du hast ein recht gut passendes Modell, warum sollte nicht die Korrelation zwischen vorhergesagten und wahren Werten gut sein?
R^2 sagt ja zunächst einmal nur etwas über die Korrelation von kg mit x1 bis x9 aus. Nicht über die Korrelation von Vorhersagewerten, oder fehlt mir da das entscheidende Stück Wissen?
Also mir erscheint das r so unplausibel nicht. Hast Du beides denn mal gegeneinander geplottet?
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte