Hallo zusammen,
ich analysiere einen Datensatz im Zuge einer Hausarbeit.
Kurz zu den Variablen:
AV=pro Kopf Konsum
UV=preis und warnhinweis (nominal)
Für die nominale Variable möchte ich eine dummy-Variable hinterlegen. Wenn ich allerdings statt (0/1) ja und nein für die Werte hinterlege, erhalte ich komplett unterschiedliche Werte.
Wenn ich die lineare Regression robust mit lms durchführe, weichen meine Werte bei ja und nein geringer zur Regression mit kqm ab. Ausreißer nach Hampel bestehen nicht.
Darf ich also auch ja und nein verwenden?
Danke und Grüße,
Nina
Multiple lineare Regression mit dummy Variable
Moderator: EDi
Re: Multiple lineare Regression mit dummy Variable
Du hast geschrieben:
UVs:
Consuli
meinst in Wirklichkeit aber:
UVs:
- preis (interval)
- warnhinweis (nominal)
Consuli
Irmgard.
Re: Multiple lineare Regression mit dummy Variable
Ich habe gesehen, dass Du bereits seit einem Monat hier dabei bist - und damit unsere Wünsche in Bezug auf die Ausgestaltung einer Frage kennen solltest! Falls Du bisher noch keine Zeit hattest, schau Dir bitte mal den Beitrag des Kollegen EDi zu diesem Thema an : viewtopic.php?f=20&t=11
Du hast natürlich (eigentlich) Recht, dass die Darstellung der nominalen Variable keinem Einfluss auf die Ergebnisse haben darf!
"Eigentlich" deshalb, weil man R auch klarmachen muss, dass es sich um eine nominale Variable handelt - bei ja/nein nimmt es das automatisch an, bei 1/0 muss man das explizit zum Ausdruck bringen.
Sonst sieht R nur numerische Werte, benutzt dann seinen "gesunden Menschenverstand" und interpretiert das Ganze als eine numerische Variable! Wenn Du partout so codieren willst, musst Du die entstandene Variable zum "Faktor" machen.
Du hast natürlich (eigentlich) Recht, dass die Darstellung der nominalen Variable keinem Einfluss auf die Ergebnisse haben darf!
"Eigentlich" deshalb, weil man R auch klarmachen muss, dass es sich um eine nominale Variable handelt - bei ja/nein nimmt es das automatisch an, bei 1/0 muss man das explizit zum Ausdruck bringen.
Sonst sieht R nur numerische Werte, benutzt dann seinen "gesunden Menschenverstand" und interpretiert das Ganze als eine numerische Variable! Wenn Du partout so codieren willst, musst Du die entstandene Variable zum "Faktor" machen.
Re: Multiple lineare Regression mit dummy Variable
Hallo Nina,
willkommen im Forum!
Eine Regression mit einer kategorialen Variablen (oder auch anders genannt nominal skalierten Variablen) ist eigentlich keine Regression.
Es ist bezüglich der kategorialen Variablen eine Varianzanalyse.
Zum Glück sind beide statistische Verfahren lineare Modelle, weshalb die Funktion lm() mit diesen verschiedenen Typen von unabhängigen Variablen sehr gut zurecht kommt.
Trotzdem macht es einen Unterschied, ob eine Variable kategorial ist (in R genannt Faktor) oder ob sie intervall- oder ratioskaliert ist.
Die Gefahr der Verwechslung ist immer dann gegeben, wenn man händisch versucht, Faktoren in numeric umzukodieren oder eine numerische Kodierung unbedarft hernimmt, obwohl es sich um einen Faktor handelt.
Bitte zeige uns doch das Ergebnis vonund die Funktionsaufrufe von lm(), damit wir den Sachverhalt konkret besprechen können.
Gruß, Jörg
willkommen im Forum!
Eine Regression mit einer kategorialen Variablen (oder auch anders genannt nominal skalierten Variablen) ist eigentlich keine Regression.
Es ist bezüglich der kategorialen Variablen eine Varianzanalyse.
Zum Glück sind beide statistische Verfahren lineare Modelle, weshalb die Funktion lm() mit diesen verschiedenen Typen von unabhängigen Variablen sehr gut zurecht kommt.
Trotzdem macht es einen Unterschied, ob eine Variable kategorial ist (in R genannt Faktor) oder ob sie intervall- oder ratioskaliert ist.
Die Gefahr der Verwechslung ist immer dann gegeben, wenn man händisch versucht, Faktoren in numeric umzukodieren oder eine numerische Kodierung unbedarft hernimmt, obwohl es sich um einen Faktor handelt.
Bitte zeige uns doch das Ergebnis von
Code: Alles auswählen
str(DeinDataframe)
Gruß, Jörg