Stepwise Forward Selection

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

Antworten
consuli
Beiträge: 479
Registriert: Mo Okt 10, 2016 8:18 pm

Stepwise Forward Selection

Beitrag von consuli »

Hallo!

Ich möchte in einem Regressiosansatz mit vielen Prediktoren mit einem leeren Regressionsmodel starten und schrittweise jeweils den Prediktor mit dem niedrigsten P-Value aus dem ANOVA F-Test einsetzen, bis der P-Value des nächsten Prediktors über 0.05 steigt. Im Englischen wird das als Stepwise Forward-Selection bezeichnet.

Wie kann ich das bei einem lm() Regressionsmodell machen? Insbesondere gibt es da schon was fertiges?

???"forward selection" hat nichts passendes gefunden.

Consuli
Irmgard.
consuli
Beiträge: 479
Registriert: Mo Okt 10, 2016 8:18 pm

Re: Stepwise Forward Selection

Beitrag von consuli »

Ich habs (wieder) gefunden. stats::step()

Jetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.

Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann. Adjustiertes R2 des Gesamtmodells?

Consuli
Irmgard.
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Stepwise Forward Selection

Beitrag von EDi »

Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann.
Vorab-Hypothesen hast du nicht? (Also ein wühlen im Schlamm -> unbedingt validuerungs- und Testdatensätze zurückhalten!)
Aber irgendwie werde bin ich nicht richtig schlau geworden, wie ich die Prediktoren besser auswählen kann. Adjustiertes R2 des Gesamtmodells?
Wie wäre es mit Lasso?
Jetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.
Siehe auch Kapitel 4.3 in

Code: Alles auswählen

Harrell, Frank E. 2015. Regression Modeling Strategies.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
consuli
Beiträge: 479
Registriert: Mo Okt 10, 2016 8:18 pm

Re: Stepwise Forward Selection

Beitrag von consuli »

EDi hat geschrieben: Di Okt 17, 2017 9:03 pm Wie wäre es mit Lasso?
Scheint ganz interessant zu sein. Habe mir gerade die Powerpoint Synopse Ridge Selection und Lasso Selektion von Dortmund runtergeladen.
Gibt es Lasso und Ridge auch schon pfannenfertig in R?
EDi hat geschrieben: Di Okt 17, 2017 9:03 pm
Jetzt hattet Ihr hier im Forum geschrieben, dass ANOVA F-Signifikanztest für die optimale Auswahl der Prediktoren unvorteilhaft ist.
Siehe auch Kapitel 4.3 in

Code: Alles auswählen

Harrell, Frank E. 2015. Regression Modeling Strategies.
Steht da groß was anderes drin, als dass es im Endeffekt auf die nicht-korrelierten Erklärungsanteile der Prediktoren ankommt? Ist ja nicht gerade günstig und die Amazon Vorschau geht über Kapitel 1 nicht hinaus.

Gruß und Dank
Consuli
Irmgard.
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Stepwise Forward Selection

Beitrag von EDi »

Gibt es Lasso und Ridge auch schon pfannenfertig in R?
glmnet ist recht angenehm:

http://www4.stat.ncsu.edu/~post/josh/LA ... mples.html
und die vignette vom Paket.
Steht da groß was anderes drin, als dass es im Endeffekt auf die nicht-korrelierten Erklärungsanteile der Prediktoren ankommt?
Nö.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
consuli
Beiträge: 479
Registriert: Mo Okt 10, 2016 8:18 pm

Re: Stepwise Forward Selection

Beitrag von consuli »

Ich habe mich mit der Ridge/ Lasso Seminararbeit an der Uni Dortmund auseinander gesetzt.

In der Arbeit
  • wird die klassische F-Test Selektion durch Korrelation ersetzt (Effekt besser/ schlechter unbekannt)
  • liefert Ridge überhaupt in den Teestszenarien überhaupt keine Variablenreduktion, sondern nur Reduktion der Regressionsparameter (wodurch das Verfahren völlig uninteressant wird)
  • liefert Lasso über die zusätzliche Restriktionsbedingung eine Variablenreduktion nur in Kombination mit Reduktion der Regressionsparameter
  • hat der OLS-Schätzer Best Linear Unbiased Estimator (BLUE) Eigenschaft
  • kann der verbesserte MSE bei Lasso also nur auf Kosten der Erwartungstreue erreicht werden
  • ist der MSE der wieder erwartungstreu gemachten Lasso Parameter nicht ermittelt worden
  • Ist die MSE Verbeserung durch Lasso gegenüber Stepwise Selektion klein (außer bei Szenario 2; Frage: wie würde klassische F-Test Selektion hier abschneiden?)
  • Trifft Stepwise Selektion in den beiden anderen Szenarien die richtige Anzahl der Parameter besser als Lasso
Mein Fazit:
Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.
Irmgard.
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Stepwise Forward Selection

Beitrag von EDi »

Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.
Du hast bisher nicht geschrieben an was du Interesse hast...
Du willst die Prädikatoren einschränken und eine gute vorhersage ist dir nicht so wichtig (?).
Wie sieht es mit Vorwissen / Hypothesen zu deinem Model aus?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
consuli
Beiträge: 479
Registriert: Mo Okt 10, 2016 8:18 pm

Re: Stepwise Forward Selection

Beitrag von consuli »

EDi hat geschrieben: Sa Okt 21, 2017 1:00 am
Die Lasso Regression wäre für mich nur dann interessant, wenn die Restriktion als digitaler An/ Aus Schalter der Regressionskoeffizienten (ohne gleichezeitige Reduktion der Regressionskoeffizienten) in die Regression eingeführt würde. An einer nicht erwartungstreuen Reduktion der Regressionsparameter habe ich überhaupt kein Interesse.
Du hast bisher nicht geschrieben an was du Interesse hast...
"Deine" Lasso Alternative war grundsätzlich schon interessant. Nur ist für mich Stepwise Forward Selection (mit F-Test) u.a. aufgrund der Dortmund Seminararbeit (trotz kleiner Studifehler) derzeit immer noch state-of-art.
EDi hat geschrieben: Sa Okt 21, 2017 1:00 am Du willst die Prädikatoren einschränken und eine gute vorhersage ist dir nicht so wichtig (?).
Wie sieht es mit Vorwissen / Hypothesen zu deinem Model aus?
Ich will eine automatische Prediktorenauswahl die eine gute Näherungslösung für die optimale Prediktorenauswahl ist. Das scheint bei stepwise forward selection der Fall zu sein. Auch aus meiner persönlichen Erfahrung in Kreditrisiko- und Versicherungsmodellen (beide Branchen bearbeite ich ethischen Gründen nicht mehr).

Wie entscheidet man eigentlich, wenn Gesamtmodell F-Test und T-Test eines Regressionskoeffizienten auf gleichem Signifikanzniveau konträr ausfallen?

Consuli
Irmgard.
Antworten