Multiple nichtlineare Regressionanalyse - BERT
Moderator: EDi
-
- Beiträge: 4
- Registriert: Mi Feb 27, 2019 10:00 pm
Multiple nichtlineare Regressionanalyse - BERT
Hallo! Ich bin nun im Zuge meiner Abschlussarbeit das erste Mal auf R gestoßen und noch nicht firm in der Anwendung. Ich kann nicht sagen, ob ich hier richtig bin, denn ich habe BERT heruntergeladen, um meine Excel-Tabellen zu bearbeiten.
Ich arbeite an der Auswertung tausender Daten. Ich habe bereits eine Multiple lineare Regression mit Excel durchgeführt, doch sind die Ergebnisse nicht zufriedenstellend, da der Graph mit hoher Wahrscheinlichkeit progressiv verläuft.
Daher meine Fragen:
1.) Wie kann ich eine Multiple nichtlineare Regressionanalyse in BERT durchführen?
2.) Wenn BERT hier nicht thematisiert wird, wie kann ich das in R lösen? Ich bin kein Programmierer.
Ich arbeite an der Auswertung tausender Daten. Ich habe bereits eine Multiple lineare Regression mit Excel durchgeführt, doch sind die Ergebnisse nicht zufriedenstellend, da der Graph mit hoher Wahrscheinlichkeit progressiv verläuft.
Daher meine Fragen:
1.) Wie kann ich eine Multiple nichtlineare Regressionanalyse in BERT durchführen?
2.) Wenn BERT hier nicht thematisiert wird, wie kann ich das in R lösen? Ich bin kein Programmierer.
Re: Multiple nichtlineare Regressionanalyse - BERT
Hallo Jack,
BERT kenne ich nicht, habe aber ergooglet, dass es sich um ein Toolkit handelt, um R aus Excel heraus aufzurufen. Das ist hier im Forum kein großes Thema, aber unser Gastgeber Student beschäftigt sich damit, R und Excel zu verknüpfen. ( https://calidris-r.com/ )
Bitte schreib konkret um was es geht, wie umfangreich das Ganze ist und vor allem was Dir bei Deiner Excel lösung nicht passt bzw, was Du Dir von R erhoffst, was damit besser sein soll.
http://statmath.wu.ac.at/courses/multve ... egrinR.pdf
https://www.statmethods.net/stats/regression.html
https://homepage.univie.ac.at/david.woz ... ssion6.pdf
https://www.r-bloggers.com/simple-linear-regression-2/
https://www.youtube.com/watch?v=SesWt4PDJdw
https://www.youtube.com/watch?v=WRp_MpYQFbg
Grüße,
Bernhard
BERT kenne ich nicht, habe aber ergooglet, dass es sich um ein Toolkit handelt, um R aus Excel heraus aufzurufen. Das ist hier im Forum kein großes Thema, aber unser Gastgeber Student beschäftigt sich damit, R und Excel zu verknüpfen. ( https://calidris-r.com/ )
Das solltest Du vielleicht etwas eingehender beschreiben. Momentan lese ich: Das Ergebnis meiner Auswertung passt mir nicht und jetzt hoffe ich, dass andere Software zu anderen Ergebnissen führt. Was genau heißt "progressiv verlaufen" im multivariaten Fall? Alle Koeffizienten sollen positiv sein?Ich habe bereits eine Multiple lineare Regression mit Excel durchgeführt, doch sind die Ergebnisse nicht zufriedenstellend, da der Graph mit hoher Wahrscheinlichkeit progressiv verläuft.
Bitte schreib konkret um was es geht, wie umfangreich das Ganze ist und vor allem was Dir bei Deiner Excel lösung nicht passt bzw, was Du Dir von R erhoffst, was damit besser sein soll.
Wie man eine lineare Regression in R rechnet? Dafür ist ein Forum ungeeignet. Lies Dir im Netz durch, wie das im allgemeinen gemacht wird und melde Dich dann nochmal mit den Problemen, die sich im individuellen Fall stellen.wie kann ich das in R lösen? Ich bin kein Programmierer.
http://statmath.wu.ac.at/courses/multve ... egrinR.pdf
https://www.statmethods.net/stats/regression.html
https://homepage.univie.ac.at/david.woz ... ssion6.pdf
https://www.r-bloggers.com/simple-linear-regression-2/
https://www.youtube.com/watch?v=SesWt4PDJdw
https://www.youtube.com/watch?v=WRp_MpYQFbg
Grüße,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Multiple nichtlineare Regressionanalyse - BERT
Hallo Jack!
Wie bist du denn auf den Gedanken gekommen, eine lineare Regression durchzuführen? Legt eine Visualisierung der Daten, z.B. mit ein paar Scatterplots, diese Methode nahe?
Was genau meinst du mit "progressivem Verlauf des Graphen"?
Wenn du viele Daten hast (und "Tausende" sind ja erstmal viele) und die lineare Regression nicht so recht passend ist, könnte dir vielleicht (als eine Alternative zu einer parametrischen nicht-linearen Regression) eine nicht-parametrische Regression weiterhelfen.
Ich wünsche dir trotz der Hürden einen guten Einstieg in R! Man muss wirklich kein Programmierer sein, um R lieben zu lernen. (Schaden tut es aber auch nicht und vielleicht ist R ja sogar dein Einstieg ins Programmieren ).
Wie bist du denn auf den Gedanken gekommen, eine lineare Regression durchzuführen? Legt eine Visualisierung der Daten, z.B. mit ein paar Scatterplots, diese Methode nahe?
Was genau meinst du mit "progressivem Verlauf des Graphen"?
Wenn du viele Daten hast (und "Tausende" sind ja erstmal viele) und die lineare Regression nicht so recht passend ist, könnte dir vielleicht (als eine Alternative zu einer parametrischen nicht-linearen Regression) eine nicht-parametrische Regression weiterhelfen.
Ich wünsche dir trotz der Hürden einen guten Einstieg in R! Man muss wirklich kein Programmierer sein, um R lieben zu lernen. (Schaden tut es aber auch nicht und vielleicht ist R ja sogar dein Einstieg ins Programmieren ).
Re: Multiple nichtlineare Regressionanalyse - BERT
Hallo,
ich habe mir vor einiger Zeit BERT mal angeschaut und finde es recht interessant. Ich finde es immer gut, wenn der Gelegenheitsanalyst über derartige Hilfsmittel an R herangeführt wird. Deswegen auch das Calidris-Projekt (danke bigben das Du es erwähnt hast)!
Ich gebe meine Zurückhaltung kurz auf und versuche einen Eindruck der MLR mit Calidris auf Basis des bekannten Datensatzes mtcars zu vermitteln (Das soll aber auch der gesamte Werbeblock bleiben! ) [Der Effektplot kommt noch!]
ich habe mir vor einiger Zeit BERT mal angeschaut und finde es recht interessant. Ich finde es immer gut, wenn der Gelegenheitsanalyst über derartige Hilfsmittel an R herangeführt wird. Deswegen auch das Calidris-Projekt (danke bigben das Du es erwähnt hast)!
Ich gebe meine Zurückhaltung kurz auf und versuche einen Eindruck der MLR mit Calidris auf Basis des bekannten Datensatzes mtcars zu vermitteln (Das soll aber auch der gesamte Werbeblock bleiben! ) [Der Effektplot kommt noch!]
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube
Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube
Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
-
- Beiträge: 4
- Registriert: Mi Feb 27, 2019 10:00 pm
Re: Multiple nichtlineare Regressionanalyse - BERT
Hallo! Ich danke euch dreien für eure Antworten! Ich möchte nun allen so gut wie möglich antworten.
@Bigben:
Mein Datensatz ähnelt dem von student optisch sehr, nur dass es sich in Spalte A nicht um Autos sondern um "Straßen mit Hausnummern" handelt. In den Headlines der übrigen Spalten stehen die Eigenschaften "Stube, Küche, Keller, Bodenraum, Kammer, Hausgarten, etc.". In der letzten Spalte habe ich die Miete aufgeführt, da diese auch bekannt ist. Diesen Spalten wird in jeder Zeile zu jeder Hausnummer deren entsprechende Anzahl zugeordnet bzw. im Fall der Miete der Mietzins. Ich bin Geschichtsstudent und werte damit Daten aus der Mitte des 19. Jahrhunderts aus. Angaben zur Wohn-/Nutzfläche und anderer Größenangaben zum Wohnen wurden damals nicht vorgenommen, weshalb ich mich mit der Anzahl der Räume zufriedenstellen muss. Nun kann es pro Haushalt nur einen Keller und einen Bodenraum geben, aber mehrere Stuben oder Kammern. Dies führte in der linearen Funktion dazu, dass die Koeffizienten von Keller und Bodenraum negativ waren, was der Logik widerspricht, da diese einen positiven Mietwert besitzen müssen.
Zu dem oben bereits erwähnten unglücklichen Ergebnis mit negativen Zahlen habe ich noch eine zweite Baustelle.:
Es ist zu erwarten, dass mit steigender Anzahl an Stuben, der Haushalt auch wohlhabender gewesen sein muss, weshalb sich dies bei einer progressiven Steigerung abzeichnen dürfte, denke ich - außer ich verstehe dies falsch.
Deine Links nehme ich dankend an! Ich werde versuchen, die Inhalte davon zu verstehen.
@Bigben:
Das solltest Du vielleicht etwas eingehender beschreiben. Momentan lese ich: Das Ergebnis meiner Auswertung passt mir nicht und jetzt hoffe ich, dass andere Software zu anderen Ergebnissen führt. Was genau heißt "progressiv verlaufen" im multivariaten Fall? Alle Koeffizienten sollen positiv sein?
Mein Datensatz ähnelt dem von student optisch sehr, nur dass es sich in Spalte A nicht um Autos sondern um "Straßen mit Hausnummern" handelt. In den Headlines der übrigen Spalten stehen die Eigenschaften "Stube, Küche, Keller, Bodenraum, Kammer, Hausgarten, etc.". In der letzten Spalte habe ich die Miete aufgeführt, da diese auch bekannt ist. Diesen Spalten wird in jeder Zeile zu jeder Hausnummer deren entsprechende Anzahl zugeordnet bzw. im Fall der Miete der Mietzins. Ich bin Geschichtsstudent und werte damit Daten aus der Mitte des 19. Jahrhunderts aus. Angaben zur Wohn-/Nutzfläche und anderer Größenangaben zum Wohnen wurden damals nicht vorgenommen, weshalb ich mich mit der Anzahl der Räume zufriedenstellen muss. Nun kann es pro Haushalt nur einen Keller und einen Bodenraum geben, aber mehrere Stuben oder Kammern. Dies führte in der linearen Funktion dazu, dass die Koeffizienten von Keller und Bodenraum negativ waren, was der Logik widerspricht, da diese einen positiven Mietwert besitzen müssen.
Ich habe bis dato 1000 Zeilen/Haushalte gefüllt. Fasse ich die gesamte Stadt zusammen, läge ich bei geschätzten 5000 Zeilen/ Haushalten.Bitte schreib konkret um was es geht, wie umfangreich das Ganze ist und vor allem was Dir bei Deiner Excel lösung nicht passt bzw, was Du Dir von R erhoffst, was damit besser sein soll.
Zu dem oben bereits erwähnten unglücklichen Ergebnis mit negativen Zahlen habe ich noch eine zweite Baustelle.:
Es ist zu erwarten, dass mit steigender Anzahl an Stuben, der Haushalt auch wohlhabender gewesen sein muss, weshalb sich dies bei einer progressiven Steigerung abzeichnen dürfte, denke ich - außer ich verstehe dies falsch.
Damit meinte ich eigentlich eine nichtlineare Funktion.Wie man eine lineare Regression in R rechnet?
Deine Links nehme ich dankend an! Ich werde versuchen, die Inhalte davon zu verstehen.
-
- Beiträge: 4
- Registriert: Mi Feb 27, 2019 10:00 pm
Re: Multiple nichtlineare Regressionanalyse - BERT
Nun möchte ich Mara antworten
Das Wort Scatterplots sagt mir jetzt nichts, aber ich kann annehmen, dass es Punkte in einem Koordinatenfeld sind, deren Menge eine Funktion erahnen lassen? Wenn ja, dann vermute ich das stark. Es liegt auch nahe, dass es gleiche Räume ähnlich hoch vermietet wurden.
Einen gebogenen Graphen.
Danke auf jeden Fall!
Erst einmal ist die lineare Regression die einzige Regression, die ich in meinem zuvorigen BWL-Studium (Erst BWL und nun noch Geschichte hinterher) gelernt habe und gleichzeitig ist es auch die einzige Regression, zu welche Excel in der Lage ist. Ich musste bei Excel leider die Eingabespalten auf 16 reduzieren, weil das die maximale Anzahl an Variablen sein durfte. Ich habe eigentlich 23.Wie bist du denn auf den Gedanken gekommen, eine lineare Regression durchzuführen? Legt eine Visualisierung der Daten, z.B. mit ein paar Scatterplots, diese Methode nahe?
Das Wort Scatterplots sagt mir jetzt nichts, aber ich kann annehmen, dass es Punkte in einem Koordinatenfeld sind, deren Menge eine Funktion erahnen lassen? Wenn ja, dann vermute ich das stark. Es liegt auch nahe, dass es gleiche Räume ähnlich hoch vermietet wurden.
Was genau meinst du mit "progressivem Verlauf des Graphen"?
Einen gebogenen Graphen.
Das werde recherchieren! Vielen Dank!Wenn du viele Daten hast [...]und die lineare Regression nicht so recht passend ist, könnte dir vielleicht (als eine Alternative zu einer parametrischen nicht-linearen Regression) eine nicht-parametrische Regression weiterhelfen.
Das hoffe ich auch:Man muss wirklich kein Programmierer sein, um R lieben zu lernen.
Danke auf jeden Fall!
-
- Beiträge: 4
- Registriert: Mi Feb 27, 2019 10:00 pm
Re: Multiple nichtlineare Regressionanalyse - BERT
Nun antworte ich student!
Ich bin bereits über Youtube auf deinem Kanal gewesen, kann das sein? Ging es da um ein Shopping-Center? Es war mir in der Youtube-Version definitiv zu komplex, weshalb ich mich in Foren umsah und irgendwann auf BERT stieß. Ich bin ein Laie, was die drei Programme angeht (BERT, R und Calidris). Aber ich interessiere mich sehr für Statistiken, weshalb ich diese auch tatkräftig in meine Arbeit einfließen lasse.
Die Oberfläche von Calidris gefällt mir sehr. Sie ist optisch anwendbar, wie ich sehe, und man ist nicht auf Dateipfade angewiesen. Das erleichtert eine Bedienung sehr! Ich werde mich definitiv damit beschäftigen, vielen Dank!
Meinst du eine nichtlineare Regression aus meinen Daten wäre mittels Calidris durchführbar?
Mit der linearen Regression von Calidris werde ich mein erstes Ergebnis nochmal überprüfen!
Ich bin bereits über Youtube auf deinem Kanal gewesen, kann das sein? Ging es da um ein Shopping-Center? Es war mir in der Youtube-Version definitiv zu komplex, weshalb ich mich in Foren umsah und irgendwann auf BERT stieß. Ich bin ein Laie, was die drei Programme angeht (BERT, R und Calidris). Aber ich interessiere mich sehr für Statistiken, weshalb ich diese auch tatkräftig in meine Arbeit einfließen lasse.
Die Oberfläche von Calidris gefällt mir sehr. Sie ist optisch anwendbar, wie ich sehe, und man ist nicht auf Dateipfade angewiesen. Das erleichtert eine Bedienung sehr! Ich werde mich definitiv damit beschäftigen, vielen Dank!
Meinst du eine nichtlineare Regression aus meinen Daten wäre mittels Calidris durchführbar?
Mit der linearen Regression von Calidris werde ich mein erstes Ergebnis nochmal überprüfen!
Zuletzt geändert von Jack the Tipper am So Mär 03, 2019 1:40 pm, insgesamt 1-mal geändert.
Re: Multiple nichtlineare Regressionanalyse - BERT
Hallo Jack,
so langsam ergibt sich ein nachvollziehbares Bild.
Große Frage: Hast Du etwas über Interaktionen/Interaktionseffekte gelesen/gelernt? Vielleicht ist das gleichzeitige Auftreten eines Kellers und einer zweiten Kammer ja wertvoller als ein Keller plus eine Kammer (Kombination mehr als die Summe der Teile)?
R selbst ist innerhalb der freien Software die Königsklasse. Wenn aber ohnehin nur die einfache lineare Regression infrage kommt, weil Sie das einzige Verfahren ist, an das Du Dich herantraust, dann würde ich Dich gerne auf JASP hinweisen. JASP ist auch frei, im Hintergrund rechnet R und die Benutzeroberfläche lässt nichts von R erahnen. Die Ausgaben sind schön und Du musst nach der Dateneingabe nicht mehr in Excel herumbasteln. Auch gibt es zu JASP recht gute Erläuterungen und Videos. Eine Universität als Herausgeber macht sich auch im Literaturverzeichnis nicht schlecht. https://jasp-stats.org/
Wenn Du allerdings die Zeit hast, Dich in R einzulesen, stehst Du damit eindeutig auf den breitesten Schultern. "Geht nicht" gibt's dann nicht mehr.
Zunächst einmal ist die lineare Regression ein sehr mächtiges Werkzeug und man kann schon vieles damit machen. Wichtiger als die zu verwendende Software ist Deine Vorstellung davon, wie die damals die Preise gemacht haben könnten und dann findet sich auch das passende Regressionmodell dazu. Vergiss erstmal meine Links von oben und belies Dich zu Dummy-Variablen und Interaktionseffekten in der linearen Regression. Mit diesen beiden gestaltest Du dann ein besseres Modell und Software findet sich dann schon.
HTH,
Bernhard
so langsam ergibt sich ein nachvollziehbares Bild.
Ja, das ist ein Problem: Im mathematischen Modell wird für jeden zusätzlichen Raum ein bestimmter Betrag addiert und das passt natürlich nicht zur wirklichen Preisgestaltung. Man könnte R wohl dazu verdonnern, nur positive Koeffizienten zu produzieren (beispielsweise mit Bayes-Regression), aber dann kommt auch wieder was komisches heraus, weil das Modell nicht der tatsächlichen Preisfindung entspricht. Man sollte versuchen, das Modell etwas richtiger zu gestalten. Ein denkbarer Versuch könnte darin bestehen, eine Dummy-Variable für eine zweite Stube und eine dritte Stube und für eine zweite Kammer und für eine dritte Kammer zu erstellen. Auf diese Weise würde eine zweite Kammer einen anderen Betrag zur Miete beitragen als eine erste Kammer oder eine dritte Kammer. Genügend Daten hast Du wahrscheinlich, um so etwas zu rechnen und es wäre ein eleganter Weg, nicht-linearität in ein lineares Modell einzubringen. Du müsstest Dir Gedanken machen, ob so etwas oder eine vergleichbare Abwandlung realistisch die Preisfindung abbilden könnte und dann die Regression rechnen und schauen, ob sinnvolle Koeffizienten herauskommen.Dies führte in der linearen Funktion dazu, dass die Koeffizienten von Keller und Bodenraum negativ waren, was der Logik widerspricht, da diese einen positiven Mietwert besitzen müssen.
Große Frage: Hast Du etwas über Interaktionen/Interaktionseffekte gelesen/gelernt? Vielleicht ist das gleichzeitige Auftreten eines Kellers und einer zweiten Kammer ja wertvoller als ein Keller plus eine Kammer (Kombination mehr als die Summe der Teile)?
Das klingt nach viel Arbeit für Dich, macht aber in Sachen Statistik vieles einfacher.Ich habe bis dato 1000 Zeilen/Haushalte gefüllt. Fasse ich die gesamte Stadt zusammen, läge ich bei geschätzten 5000 Zeilen/ Haushalten.
ROFL. Das passiert Dir mit echter Statistiksoftware nicht.Ich musste bei Excel leider die Eingabespalten auf 16 reduzieren, weil das die maximale Anzahl an Variablen sein durfte.
R selbst ist innerhalb der freien Software die Königsklasse. Wenn aber ohnehin nur die einfache lineare Regression infrage kommt, weil Sie das einzige Verfahren ist, an das Du Dich herantraust, dann würde ich Dich gerne auf JASP hinweisen. JASP ist auch frei, im Hintergrund rechnet R und die Benutzeroberfläche lässt nichts von R erahnen. Die Ausgaben sind schön und Du musst nach der Dateneingabe nicht mehr in Excel herumbasteln. Auch gibt es zu JASP recht gute Erläuterungen und Videos. Eine Universität als Herausgeber macht sich auch im Literaturverzeichnis nicht schlecht. https://jasp-stats.org/
Wenn Du allerdings die Zeit hast, Dich in R einzulesen, stehst Du damit eindeutig auf den breitesten Schultern. "Geht nicht" gibt's dann nicht mehr.
Darauf wäre ich nicht gekommen. Dir ist aber natürlich auch klar, dass das mit der nicht-geraden Linie im multivariaten Fall nicht so ganz einfach ist.Einen gebogenen Graphen.
Zunächst einmal ist die lineare Regression ein sehr mächtiges Werkzeug und man kann schon vieles damit machen. Wichtiger als die zu verwendende Software ist Deine Vorstellung davon, wie die damals die Preise gemacht haben könnten und dann findet sich auch das passende Regressionmodell dazu. Vergiss erstmal meine Links von oben und belies Dich zu Dummy-Variablen und Interaktionseffekten in der linearen Regression. Mit diesen beiden gestaltest Du dann ein besseres Modell und Software findet sich dann schon.
HTH,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Multiple nichtlineare Regressionanalyse - BERT
Hallo Jack,
ja, das Shopping-Thema ist das verwendete Beispiel. Und natürlich sind weitere Verfahren in Planung! Merci für Dein Feedback!
ja, das Shopping-Thema ist das verwendete Beispiel. Und natürlich sind weitere Verfahren in Planung! Merci für Dein Feedback!
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube
Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube
Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
Re: Multiple nichtlineare Regressionanalyse - BERT
Die negativen Koeffizienten für Keller und Bodenraum sind doch sehr interessant, das würde ich nicht zu früh verwerfen.
Erstens bist du da als Geschichtswissenschaftler gefragt, ob es dafür nicht eine inhaltliche Erklärung gibt. Als Laie weiß ich, dass das Mittelalter 'verrückt' war. Wenn es Steuern auf Bärte in Russland gab, warum dann nicht auch Steuern/Abgaben auf Keller und Bodenräume oder sonstige Einschränkungen, die hierfür eine Erklärung liefern könnten. Heutzutage ist das Unterkellern eines Gebäudes vergleichsweise teuer und will finanziell gut überlegt sein. Wie war das damals? Welche Gebäude wurden unterkellert und warum? Eine mögliche Erklärung könnte lauten: Es wurden nur Wirtschaftsgebäude (Schlachtereien, Brauereien, etc.) unterkellert. Man wohnt also im Industriegebiet und der erzielbare Mietzins liegt deshalb vergleichsweise niedrig. Solche Überlegungen können dir auch helfen, Lücken in deinem Modell aufzudecken. Wenn das Modell unvollständig ist, also relevante Variablen fehlen, werden Prädiktoren falsch geschätzt.
Zweitens würde ich mir die Daten genauer anschauen, ob die Annahme eines linearen Zusammenhangs gerechtfertigt ist. Dafür eignen sich Punktwolkendiagramme (Scatterplots) gut, wie schon angesprochen wurde. Dann kannst du eine Testregression rechnen und per Residuendiagnose prüfen, ob die Annahmen des linearen Modells erfüllt sind. Falls nicht, kann man eine Variablentransformation erwägen, da du dich so nicht aus dem gewohnten Bereich der linearen Regression bewegen musst.
Erstens bist du da als Geschichtswissenschaftler gefragt, ob es dafür nicht eine inhaltliche Erklärung gibt. Als Laie weiß ich, dass das Mittelalter 'verrückt' war. Wenn es Steuern auf Bärte in Russland gab, warum dann nicht auch Steuern/Abgaben auf Keller und Bodenräume oder sonstige Einschränkungen, die hierfür eine Erklärung liefern könnten. Heutzutage ist das Unterkellern eines Gebäudes vergleichsweise teuer und will finanziell gut überlegt sein. Wie war das damals? Welche Gebäude wurden unterkellert und warum? Eine mögliche Erklärung könnte lauten: Es wurden nur Wirtschaftsgebäude (Schlachtereien, Brauereien, etc.) unterkellert. Man wohnt also im Industriegebiet und der erzielbare Mietzins liegt deshalb vergleichsweise niedrig. Solche Überlegungen können dir auch helfen, Lücken in deinem Modell aufzudecken. Wenn das Modell unvollständig ist, also relevante Variablen fehlen, werden Prädiktoren falsch geschätzt.
Zweitens würde ich mir die Daten genauer anschauen, ob die Annahme eines linearen Zusammenhangs gerechtfertigt ist. Dafür eignen sich Punktwolkendiagramme (Scatterplots) gut, wie schon angesprochen wurde. Dann kannst du eine Testregression rechnen und per Residuendiagnose prüfen, ob die Annahmen des linearen Modells erfüllt sind. Falls nicht, kann man eine Variablentransformation erwägen, da du dich so nicht aus dem gewohnten Bereich der linearen Regression bewegen musst.