Multiple nichtlineare Regressionanalyse - BERT

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

Antworten
Jack the Tipper
Beiträge: 4
Registriert: Mi Feb 27, 2019 10:00 pm

Multiple nichtlineare Regressionanalyse - BERT

Beitrag von Jack the Tipper » Mi Feb 27, 2019 10:10 pm

Hallo! Ich bin nun im Zuge meiner Abschlussarbeit das erste Mal auf R gestoßen und noch nicht firm in der Anwendung. Ich kann nicht sagen, ob ich hier richtig bin, denn ich habe BERT heruntergeladen, um meine Excel-Tabellen zu bearbeiten.

Ich arbeite an der Auswertung tausender Daten. Ich habe bereits eine Multiple lineare Regression mit Excel durchgeführt, doch sind die Ergebnisse nicht zufriedenstellend, da der Graph mit hoher Wahrscheinlichkeit progressiv verläuft.

Daher meine Fragen:

1.) Wie kann ich eine Multiple nichtlineare Regressionanalyse in BERT durchführen?
2.) Wenn BERT hier nicht thematisiert wird, wie kann ich das in R lösen? Ich bin kein Programmierer.

bigben
Beiträge: 908
Registriert: Mi Okt 12, 2016 9:09 am

Re: Multiple nichtlineare Regressionanalyse - BERT

Beitrag von bigben » Do Feb 28, 2019 8:16 am

Hallo Jack,

BERT kenne ich nicht, habe aber ergooglet, dass es sich um ein Toolkit handelt, um R aus Excel heraus aufzurufen. Das ist hier im Forum kein großes Thema, aber unser Gastgeber Student beschäftigt sich damit, R und Excel zu verknüpfen. ( https://calidris-r.com/ )
Ich habe bereits eine Multiple lineare Regression mit Excel durchgeführt, doch sind die Ergebnisse nicht zufriedenstellend, da der Graph mit hoher Wahrscheinlichkeit progressiv verläuft.
Das solltest Du vielleicht etwas eingehender beschreiben. Momentan lese ich: Das Ergebnis meiner Auswertung passt mir nicht und jetzt hoffe ich, dass andere Software zu anderen Ergebnissen führt. Was genau heißt "progressiv verlaufen" im multivariaten Fall? Alle Koeffizienten sollen positiv sein?
Bitte schreib konkret um was es geht, wie umfangreich das Ganze ist und vor allem was Dir bei Deiner Excel lösung nicht passt bzw, was Du Dir von R erhoffst, was damit besser sein soll.
wie kann ich das in R lösen? Ich bin kein Programmierer.
Wie man eine lineare Regression in R rechnet? Dafür ist ein Forum ungeeignet. Lies Dir im Netz durch, wie das im allgemeinen gemacht wird und melde Dich dann nochmal mit den Problemen, die sich im individuellen Fall stellen.
http://statmath.wu.ac.at/courses/multve ... egrinR.pdf
https://www.statmethods.net/stats/regression.html
https://homepage.univie.ac.at/david.woz ... ssion6.pdf
https://www.r-bloggers.com/simple-linear-regression-2/
https://www.youtube.com/watch?v=SesWt4PDJdw
https://www.youtube.com/watch?v=WRp_MpYQFbg

Grüße,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte

mara
Beiträge: 4
Registriert: Mo Feb 25, 2019 10:31 am

Re: Multiple nichtlineare Regressionanalyse - BERT

Beitrag von mara » Do Feb 28, 2019 8:03 pm

Hallo Jack!

Wie bist du denn auf den Gedanken gekommen, eine lineare Regression durchzuführen? Legt eine Visualisierung der Daten, z.B. mit ein paar Scatterplots, diese Methode nahe?
Was genau meinst du mit "progressivem Verlauf des Graphen"?

Wenn du viele Daten hast (und "Tausende" sind ja erstmal viele) und die lineare Regression nicht so recht passend ist, könnte dir vielleicht (als eine Alternative zu einer parametrischen nicht-linearen Regression) eine nicht-parametrische Regression weiterhelfen.

Ich wünsche dir trotz der Hürden einen guten Einstieg in R! Man muss wirklich kein Programmierer sein, um R lieben zu lernen. (Schaden tut es aber auch nicht und vielleicht ist R ja sogar dein Einstieg ins Programmieren ;)).

Benutzeravatar
student
Beiträge: 280
Registriert: Fr Okt 07, 2016 9:52 am

Re: Multiple nichtlineare Regressionanalyse - BERT

Beitrag von student » Fr Mär 01, 2019 3:08 pm

Hallo,

ich habe mir vor einiger Zeit BERT mal angeschaut und finde es recht interessant. Ich finde es immer gut, wenn der Gelegenheitsanalyst über derartige Hilfsmittel an R herangeführt wird. Deswegen auch das Calidris-Projekt (danke bigben das Du es erwähnt hast)!

Ich gebe meine Zurückhaltung kurz auf und versuche einen Eindruck der MLR mit Calidris auf Basis des bekannten Datensatzes mtcars zu vermitteln (Das soll aber auch der gesamte Werbeblock bleiben! ;) ) [Der Effektplot kommt noch!]
Dateianhänge
Calidris_MLR1.jpg
Das Add-In Calidris
Calidris_MLR2.jpg
Datenselektion
Calidris_MLR4.jpg
Die Schätzung in ein Excelblatt eigefügt
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, r-statistik.de und das Ad-Oculos-Projekt

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)

Jack the Tipper
Beiträge: 4
Registriert: Mi Feb 27, 2019 10:00 pm

Re: Multiple nichtlineare Regressionanalyse - BERT

Beitrag von Jack the Tipper » Fr Mär 01, 2019 8:31 pm

Hallo! Ich danke euch dreien für eure Antworten! Ich möchte nun allen so gut wie möglich antworten.

@Bigben:
Das solltest Du vielleicht etwas eingehender beschreiben. Momentan lese ich: Das Ergebnis meiner Auswertung passt mir nicht und jetzt hoffe ich, dass andere Software zu anderen Ergebnissen führt. Was genau heißt "progressiv verlaufen" im multivariaten Fall? Alle Koeffizienten sollen positiv sein?

Mein Datensatz ähnelt dem von student optisch sehr, nur dass es sich in Spalte A nicht um Autos sondern um "Straßen mit Hausnummern" handelt. In den Headlines der übrigen Spalten stehen die Eigenschaften "Stube, Küche, Keller, Bodenraum, Kammer, Hausgarten, etc.". In der letzten Spalte habe ich die Miete aufgeführt, da diese auch bekannt ist. Diesen Spalten wird in jeder Zeile zu jeder Hausnummer deren entsprechende Anzahl zugeordnet bzw. im Fall der Miete der Mietzins. Ich bin Geschichtsstudent und werte damit Daten aus der Mitte des 19. Jahrhunderts aus. Angaben zur Wohn-/Nutzfläche und anderer Größenangaben zum Wohnen wurden damals nicht vorgenommen, weshalb ich mich mit der Anzahl der Räume zufriedenstellen muss. Nun kann es pro Haushalt nur einen Keller und einen Bodenraum geben, aber mehrere Stuben oder Kammern. Dies führte in der linearen Funktion dazu, dass die Koeffizienten von Keller und Bodenraum negativ waren, was der Logik widerspricht, da diese einen positiven Mietwert besitzen müssen.
Bitte schreib konkret um was es geht, wie umfangreich das Ganze ist und vor allem was Dir bei Deiner Excel lösung nicht passt bzw, was Du Dir von R erhoffst, was damit besser sein soll.
Ich habe bis dato 1000 Zeilen/Haushalte gefüllt. Fasse ich die gesamte Stadt zusammen, läge ich bei geschätzten 5000 Zeilen/ Haushalten.
Zu dem oben bereits erwähnten unglücklichen Ergebnis mit negativen Zahlen habe ich noch eine zweite Baustelle.:
Es ist zu erwarten, dass mit steigender Anzahl an Stuben, der Haushalt auch wohlhabender gewesen sein muss, weshalb sich dies bei einer progressiven Steigerung abzeichnen dürfte, denke ich - außer ich verstehe dies falsch.
Wie man eine lineare Regression in R rechnet?
Damit meinte ich eigentlich eine nichtlineare Funktion.
Deine Links nehme ich dankend an! Ich werde versuchen, die Inhalte davon zu verstehen.

Jack the Tipper
Beiträge: 4
Registriert: Mi Feb 27, 2019 10:00 pm

Re: Multiple nichtlineare Regressionanalyse - BERT

Beitrag von Jack the Tipper » Fr Mär 01, 2019 9:00 pm

Nun möchte ich Mara antworten
Wie bist du denn auf den Gedanken gekommen, eine lineare Regression durchzuführen? Legt eine Visualisierung der Daten, z.B. mit ein paar Scatterplots, diese Methode nahe?
Erst einmal ist die lineare Regression die einzige Regression, die ich in meinem zuvorigen BWL-Studium (Erst BWL und nun noch Geschichte hinterher) gelernt habe :D und gleichzeitig ist es auch die einzige Regression, zu welche Excel in der Lage ist. Ich musste bei Excel leider die Eingabespalten auf 16 reduzieren, weil das die maximale Anzahl an Variablen sein durfte. Ich habe eigentlich 23.
Das Wort Scatterplots sagt mir jetzt nichts, aber ich kann annehmen, dass es Punkte in einem Koordinatenfeld sind, deren Menge eine Funktion erahnen lassen? Wenn ja, dann vermute ich das stark. Es liegt auch nahe, dass es gleiche Räume ähnlich hoch vermietet wurden.
Was genau meinst du mit "progressivem Verlauf des Graphen"?

Einen gebogenen Graphen.
Wenn du viele Daten hast [...]und die lineare Regression nicht so recht passend ist, könnte dir vielleicht (als eine Alternative zu einer parametrischen nicht-linearen Regression) eine nicht-parametrische Regression weiterhelfen.
Das werde recherchieren! Vielen Dank!
Man muss wirklich kein Programmierer sein, um R lieben zu lernen.
Das hoffe ich auch: :) :roll:
Danke auf jeden Fall!

Jack the Tipper
Beiträge: 4
Registriert: Mi Feb 27, 2019 10:00 pm

Re: Multiple nichtlineare Regressionanalyse - BERT

Beitrag von Jack the Tipper » Fr Mär 01, 2019 9:10 pm

Nun antworte ich student!

Ich bin bereits über Youtube auf deinem Kanal gewesen, kann das sein? Ging es da um ein Shopping-Center? Es war mir in der Youtube-Version definitiv zu komplex, weshalb ich mich in Foren umsah und irgendwann auf BERT stieß. Ich bin ein Laie, was die drei Programme angeht (BERT, R und Calidris). Aber ich interessiere mich sehr für Statistiken, weshalb ich diese auch tatkräftig in meine Arbeit einfließen lasse.

Die Oberfläche von Calidris gefällt mir sehr. Sie ist optisch anwendbar, wie ich sehe, und man ist nicht auf Dateipfade angewiesen. Das erleichtert eine Bedienung sehr! Ich werde mich definitiv damit beschäftigen, vielen Dank!

Meinst du eine nichtlineare Regression aus meinen Daten wäre mittels Calidris durchführbar?


Mit der linearen Regression von Calidris werde ich mein erstes Ergebnis nochmal überprüfen!
Zuletzt geändert von Jack the Tipper am So Mär 03, 2019 1:40 pm, insgesamt 1-mal geändert.

bigben
Beiträge: 908
Registriert: Mi Okt 12, 2016 9:09 am

Re: Multiple nichtlineare Regressionanalyse - BERT

Beitrag von bigben » Fr Mär 01, 2019 9:53 pm

Hallo Jack,

so langsam ergibt sich ein nachvollziehbares Bild.
Dies führte in der linearen Funktion dazu, dass die Koeffizienten von Keller und Bodenraum negativ waren, was der Logik widerspricht, da diese einen positiven Mietwert besitzen müssen.
Ja, das ist ein Problem: Im mathematischen Modell wird für jeden zusätzlichen Raum ein bestimmter Betrag addiert und das passt natürlich nicht zur wirklichen Preisgestaltung. Man könnte R wohl dazu verdonnern, nur positive Koeffizienten zu produzieren (beispielsweise mit Bayes-Regression), aber dann kommt auch wieder was komisches heraus, weil das Modell nicht der tatsächlichen Preisfindung entspricht. Man sollte versuchen, das Modell etwas richtiger zu gestalten. Ein denkbarer Versuch könnte darin bestehen, eine Dummy-Variable für eine zweite Stube und eine dritte Stube und für eine zweite Kammer und für eine dritte Kammer zu erstellen. Auf diese Weise würde eine zweite Kammer einen anderen Betrag zur Miete beitragen als eine erste Kammer oder eine dritte Kammer. Genügend Daten hast Du wahrscheinlich, um so etwas zu rechnen und es wäre ein eleganter Weg, nicht-linearität in ein lineares Modell einzubringen. Du müsstest Dir Gedanken machen, ob so etwas oder eine vergleichbare Abwandlung realistisch die Preisfindung abbilden könnte und dann die Regression rechnen und schauen, ob sinnvolle Koeffizienten herauskommen.

Große Frage: Hast Du etwas über Interaktionen/Interaktionseffekte gelesen/gelernt? Vielleicht ist das gleichzeitige Auftreten eines Kellers und einer zweiten Kammer ja wertvoller als ein Keller plus eine Kammer (Kombination mehr als die Summe der Teile)?
Ich habe bis dato 1000 Zeilen/Haushalte gefüllt. Fasse ich die gesamte Stadt zusammen, läge ich bei geschätzten 5000 Zeilen/ Haushalten.
Das klingt nach viel Arbeit für Dich, macht aber in Sachen Statistik vieles einfacher.
Ich musste bei Excel leider die Eingabespalten auf 16 reduzieren, weil das die maximale Anzahl an Variablen sein durfte.
ROFL. Das passiert Dir mit echter Statistiksoftware nicht.

R selbst ist innerhalb der freien Software die Königsklasse. Wenn aber ohnehin nur die einfache lineare Regression infrage kommt, weil Sie das einzige Verfahren ist, an das Du Dich herantraust, dann würde ich Dich gerne auf JASP hinweisen. JASP ist auch frei, im Hintergrund rechnet R und die Benutzeroberfläche lässt nichts von R erahnen. Die Ausgaben sind schön und Du musst nach der Dateneingabe nicht mehr in Excel herumbasteln. Auch gibt es zu JASP recht gute Erläuterungen und Videos. Eine Universität als Herausgeber macht sich auch im Literaturverzeichnis nicht schlecht. https://jasp-stats.org/

Wenn Du allerdings die Zeit hast, Dich in R einzulesen, stehst Du damit eindeutig auf den breitesten Schultern. "Geht nicht" gibt's dann nicht mehr.
Einen gebogenen Graphen.
Darauf wäre ich nicht gekommen. Dir ist aber natürlich auch klar, dass das mit der nicht-geraden Linie im multivariaten Fall nicht so ganz einfach ist.

Zunächst einmal ist die lineare Regression ein sehr mächtiges Werkzeug und man kann schon vieles damit machen. Wichtiger als die zu verwendende Software ist Deine Vorstellung davon, wie die damals die Preise gemacht haben könnten und dann findet sich auch das passende Regressionmodell dazu. Vergiss erstmal meine Links von oben und belies Dich zu Dummy-Variablen und Interaktionseffekten in der linearen Regression. Mit diesen beiden gestaltest Du dann ein besseres Modell und Software findet sich dann schon.

HTH,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte

Benutzeravatar
student
Beiträge: 280
Registriert: Fr Okt 07, 2016 9:52 am

Re: Multiple nichtlineare Regressionanalyse - BERT

Beitrag von student » Sa Mär 02, 2019 10:19 am

Hallo Jack,

ja, das Shopping-Thema ist das verwendete Beispiel. Und natürlich sind weitere Verfahren in Planung! Merci für Dein Feedback!
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, r-statistik.de und das Ad-Oculos-Projekt

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)

Hufeisen
Beiträge: 87
Registriert: Fr Aug 31, 2018 6:34 pm

Re: Multiple nichtlineare Regressionanalyse - BERT

Beitrag von Hufeisen » Sa Mär 02, 2019 11:23 am

Die negativen Koeffizienten für Keller und Bodenraum sind doch sehr interessant, das würde ich nicht zu früh verwerfen.
Erstens bist du da als Geschichtswissenschaftler gefragt, ob es dafür nicht eine inhaltliche Erklärung gibt. Als Laie weiß ich, dass das Mittelalter 'verrückt' war. Wenn es Steuern auf Bärte in Russland gab, warum dann nicht auch Steuern/Abgaben auf Keller und Bodenräume oder sonstige Einschränkungen, die hierfür eine Erklärung liefern könnten. Heutzutage ist das Unterkellern eines Gebäudes vergleichsweise teuer und will finanziell gut überlegt sein. Wie war das damals? Welche Gebäude wurden unterkellert und warum? Eine mögliche Erklärung könnte lauten: Es wurden nur Wirtschaftsgebäude (Schlachtereien, Brauereien, etc.) unterkellert. Man wohnt also im Industriegebiet und der erzielbare Mietzins liegt deshalb vergleichsweise niedrig. Solche Überlegungen können dir auch helfen, Lücken in deinem Modell aufzudecken. Wenn das Modell unvollständig ist, also relevante Variablen fehlen, werden Prädiktoren falsch geschätzt.
Zweitens würde ich mir die Daten genauer anschauen, ob die Annahme eines linearen Zusammenhangs gerechtfertigt ist. Dafür eignen sich Punktwolkendiagramme (Scatterplots) gut, wie schon angesprochen wurde. Dann kannst du eine Testregression rechnen und per Residuendiagnose prüfen, ob die Annahmen des linearen Modells erfüllt sind. Falls nicht, kann man eine Variablentransformation erwägen, da du dich so nicht aus dem gewohnten Bereich der linearen Regression bewegen musst.

Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast