Stepwise Forward Selection

consuli · Beitrag von **consuli** » Di Okt 17, 2017 4:41 pm

Hallo!

Ich möchte in einem Regressiosansatz mit vielen Prediktoren mit einem leeren Regressionsmodel starten und schrittweise jeweils den Prediktor mit dem niedrigsten P-Value aus dem ANOVA F-Test einsetzen, bis der P-Value des nächsten Prediktors über 0.05 steigt. Im Englischen wird das als Stepwise Forward-Selection bezeichnet.

Wie kann ich das bei einem lm() Regressionsmodell machen? Insbesondere gibt es da schon was fertiges?

???"forward selection" hat nichts passendes gefunden.

Consuli

consuli · Beitrag von **consuli** » Di Okt 17, 2017 5:00 pm

Ich habs (wieder) gefunden. stats::step()

Jetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.

Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann. Adjustiertes R2 des Gesamtmodells?

Consuli

Beitrag von **EDi** » Di Okt 17, 2017 9:03 pm

Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann.

Vorab-Hypothesen hast du nicht? (Also ein wühlen im Schlamm -> unbedingt validuerungs- und Testdatensätze zurückhalten!)

Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann. Adjustiertes R2 des Gesamtmodells?

Wie wäre es mit Lasso?

Jetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.

Siehe auch Kapitel 4.3 in

Code: Alles auswählen

Harrell, Frank E. 2015. Regression Modeling Strategies.

consuli · Beitrag von **consuli** » Do Okt 19, 2017 8:24 pm

EDi hat geschrieben: ↑Di Okt 17, 2017 9:03 pm Wie wäre es mit Lasso?

Scheint ganz interessant zu sein. Habe mir gerade die Powerpoint Synopse Ridge Selection und Lasso Selektion von Dortmund runtergeladen.
Gibt es Lasso und Ridge auch schon pfannenfertig in R?

EDi hat geschrieben: ↑Di Okt 17, 2017 9:03 pm
Jetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.
Siehe auch Kapitel 4.3 in
Code: Alles auswählen
Harrell, Frank E. 2015. Regression Modeling Strategies.

Steht da groß was anderes drin, als dass es im Endeffekt auf die nicht-korrelierten Erklärungsanteile der Prediktoren ankommt? Ist ja nicht gerade günstig und die Amazon Vorschau geht über Kapitel 1 nicht hinaus.

Gruß und Dank
Consuli

Beitrag von **EDi** » Do Okt 19, 2017 9:55 pm

Gibt es Lasso und Ridge auch schon pfannenfertig in R?

glmnet ist recht angenehm:

http://www4.stat.ncsu.edu/~post/josh/LA ... mples.html
und die vignette vom Paket.

Steht da groß was anderes drin, als dass es im Endeffekt auf die nicht-korrelierten Erklärungsanteile der Prediktoren ankommt?

Nö.

consuli · Beitrag von **consuli** » Fr Okt 20, 2017 9:47 pm

Ich habe mich mit der Ridge/ Lasso Seminararbeit an der Uni Dortmund auseinander gesetzt.

In der Arbeit

wird die klassische F-Test Selektion durch Korrelation ersetzt (Effekt besser/ schlechter unbekannt)
liefert Ridge überhaupt in den Teestszenarien überhaupt keine Variablenreduktion, sondern nur Reduktion der Regressionsparameter (wodurch das Verfahren völlig uninteressant wird)
liefert Lasso über die zusätzliche Restriktionsbedingung eine Variablenreduktion nur in Kombination mit Reduktion der Regressionsparameter
hat der OLS-Schätzer Best Linear Unbiased Estimator (BLUE) Eigenschaft
kann der verbesserte MSE bei Lasso also nur auf Kosten der Erwartungstreue erreicht werden
ist der MSE der wieder erwartungstreu gemachten Lasso Parameter nicht ermittelt worden
Ist die MSE Verbeserung durch Lasso gegenüber Stepwise Selektion klein (außer bei Szenario 2; Frage: wie würde klassische F-Test Selektion hier abschneiden?)
Trifft Stepwise Selektion in den beiden anderen Szenarien die richtige Anzahl der Parameter besser als Lasso

Mein Fazit:
Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.

Beitrag von **EDi** » Sa Okt 21, 2017 1:00 am

Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.

Du hast bisher nicht geschrieben an was du Interesse hast...
Du willst die Prädikatoren einschränken und eine gute vorhersage ist dir nicht so wichtig (?).
Wie sieht es mit Vorwissen / Hypothesen zu deinem Model aus?

consuli · Beitrag von **consuli** » So Okt 22, 2017 1:00 pm

EDi hat geschrieben: ↑Sa Okt 21, 2017 1:00 am
Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.
Du hast bisher nicht geschrieben an was du Interesse hast...

"Deine" Lasso Alternative war grundsätzlich schon interessant. Nur ist für mich Stepwise Forward Selection (mit F-Test) u.a. aufgrund der Dortmund Seminararbeit (trotz kleiner Studifehler) derzeit immer noch state-of-art.

EDi hat geschrieben: ↑Sa Okt 21, 2017 1:00 am Du willst die Prädikatoren einschränken und eine gute vorhersage ist dir nicht so wichtig (?).
Wie sieht es mit Vorwissen / Hypothesen zu deinem Model aus?

Ich will eine automatische Prediktorenauswahl die eine gute Näherungslösung für die optimale Prediktorenauswahl ist. Das scheint bei stepwise forward selection der Fall zu sein. Auch aus meiner persönlichen Erfahrung in Kreditrisiko- und Versicherungsmodellen (beide Branchen bearbeite ich ethischen Gründen nicht mehr).

Wie entscheidet man eigentlich, wenn Gesamtmodell F-Test und T-Test eines Regressionskoeffizienten auf gleichem Signifikanzniveau konträr ausfallen?

Consuli

Deutsches R-Forum

Stepwise Forward Selection

Stepwise Forward Selection

Re: Stepwise Forward Selection

Re: Stepwise Forward Selection

Re: Stepwise Forward Selection

Re: Stepwise Forward Selection

Re: Stepwise Forward Selection

Re: Stepwise Forward Selection

Re: Stepwise Forward Selection