Stepwise Forward Selection
Moderator: EDi
Stepwise Forward Selection
Hallo!
Ich möchte in einem Regressiosansatz mit vielen Prediktoren mit einem leeren Regressionsmodel starten und schrittweise jeweils den Prediktor mit dem niedrigsten P-Value aus dem ANOVA F-Test einsetzen, bis der P-Value des nächsten Prediktors über 0.05 steigt. Im Englischen wird das als Stepwise Forward-Selection bezeichnet.
Wie kann ich das bei einem lm() Regressionsmodell machen? Insbesondere gibt es da schon was fertiges?
???"forward selection" hat nichts passendes gefunden.
Consuli
Ich möchte in einem Regressiosansatz mit vielen Prediktoren mit einem leeren Regressionsmodel starten und schrittweise jeweils den Prediktor mit dem niedrigsten P-Value aus dem ANOVA F-Test einsetzen, bis der P-Value des nächsten Prediktors über 0.05 steigt. Im Englischen wird das als Stepwise Forward-Selection bezeichnet.
Wie kann ich das bei einem lm() Regressionsmodell machen? Insbesondere gibt es da schon was fertiges?
???"forward selection" hat nichts passendes gefunden.
Consuli
Irmgard.
Re: Stepwise Forward Selection
Ich habs (wieder) gefunden. stats::step()
Jetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.
Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann. Adjustiertes R2 des Gesamtmodells?
Consuli
Jetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.
Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann. Adjustiertes R2 des Gesamtmodells?
Consuli
Irmgard.
Re: Stepwise Forward Selection
Vorab-Hypothesen hast du nicht? (Also ein wühlen im Schlamm -> unbedingt validuerungs- und Testdatensätze zurückhalten!)Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann.
Wie wäre es mit Lasso?Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann. Adjustiertes R2 des Gesamtmodells?
Siehe auch Kapitel 4.3 inJetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.
Code: Alles auswählen
Harrell, Frank E. 2015. Regression Modeling Strategies.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Re: Stepwise Forward Selection
Scheint ganz interessant zu sein. Habe mir gerade die Powerpoint Synopse Ridge Selection und Lasso Selektion von Dortmund runtergeladen.
Gibt es Lasso und Ridge auch schon pfannenfertig in R?
Steht da groß was anderes drin, als dass es im Endeffekt auf die nicht-korrelierten Erklärungsanteile der Prediktoren ankommt? Ist ja nicht gerade günstig und die Amazon Vorschau geht über Kapitel 1 nicht hinaus.EDi hat geschrieben: ↑Di Okt 17, 2017 9:03 pmSiehe auch Kapitel 4.3 inJetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.Code: Alles auswählen
Harrell, Frank E. 2015. Regression Modeling Strategies.
Gruß und Dank
Consuli
Irmgard.
Re: Stepwise Forward Selection
glmnet ist recht angenehm:Gibt es Lasso und Ridge auch schon pfannenfertig in R?
http://www4.stat.ncsu.edu/~post/josh/LA ... mples.html
und die vignette vom Paket.
Nö.Steht da groß was anderes drin, als dass es im Endeffekt auf die nicht-korrelierten Erklärungsanteile der Prediktoren ankommt?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Re: Stepwise Forward Selection
Ich habe mich mit der Ridge/ Lasso Seminararbeit an der Uni Dortmund auseinander gesetzt.
In der Arbeit
Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.
In der Arbeit
- wird die klassische F-Test Selektion durch Korrelation ersetzt (Effekt besser/ schlechter unbekannt)
- liefert Ridge überhaupt in den Teestszenarien überhaupt keine Variablenreduktion, sondern nur Reduktion der Regressionsparameter (wodurch das Verfahren völlig uninteressant wird)
- liefert Lasso über die zusätzliche Restriktionsbedingung eine Variablenreduktion nur in Kombination mit Reduktion der Regressionsparameter
- hat der OLS-Schätzer Best Linear Unbiased Estimator (BLUE) Eigenschaft
- kann der verbesserte MSE bei Lasso also nur auf Kosten der Erwartungstreue erreicht werden
- ist der MSE der wieder erwartungstreu gemachten Lasso Parameter nicht ermittelt worden
- Ist die MSE Verbeserung durch Lasso gegenüber Stepwise Selektion klein (außer bei Szenario 2; Frage: wie würde klassische F-Test Selektion hier abschneiden?)
- Trifft Stepwise Selektion in den beiden anderen Szenarien die richtige Anzahl der Parameter besser als Lasso
Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.
Irmgard.
Re: Stepwise Forward Selection
Du hast bisher nicht geschrieben an was du Interesse hast...Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.
Du willst die Prädikatoren einschränken und eine gute vorhersage ist dir nicht so wichtig (?).
Wie sieht es mit Vorwissen / Hypothesen zu deinem Model aus?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Re: Stepwise Forward Selection
"Deine" Lasso Alternative war grundsätzlich schon interessant. Nur ist für mich Stepwise Forward Selection (mit F-Test) u.a. aufgrund der Dortmund Seminararbeit (trotz kleiner Studifehler) derzeit immer noch state-of-art.EDi hat geschrieben: ↑Sa Okt 21, 2017 1:00 amDu hast bisher nicht geschrieben an was du Interesse hast...Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.
Ich will eine automatische Prediktorenauswahl die eine gute Näherungslösung für die optimale Prediktorenauswahl ist. Das scheint bei stepwise forward selection der Fall zu sein. Auch aus meiner persönlichen Erfahrung in Kreditrisiko- und Versicherungsmodellen (beide Branchen bearbeite ich ethischen Gründen nicht mehr).
Wie entscheidet man eigentlich, wenn Gesamtmodell F-Test und T-Test eines Regressionskoeffizienten auf gleichem Signifikanzniveau konträr ausfallen?
Consuli
Irmgard.