Seite 1 von 1

Multiple lineare Regression mit dummy Variable

Verfasst: Fr Okt 12, 2018 8:25 pm
von Ninaxx
Hallo zusammen,

ich analysiere einen Datensatz im Zuge einer Hausarbeit.

Kurz zu den Variablen:

AV=pro Kopf Konsum
UV=preis und warnhinweis (nominal)

Für die nominale Variable möchte ich eine dummy-Variable hinterlegen. Wenn ich allerdings statt (0/1) ja und nein für die Werte hinterlege, erhalte ich komplett unterschiedliche Werte.

Wenn ich die lineare Regression robust mit lms durchführe, weichen meine Werte bei ja und nein geringer zur Regression mit kqm ab. Ausreißer nach Hampel bestehen nicht.

Darf ich also auch ja und nein verwenden?

Danke und Grüße,
Nina

Re: Multiple lineare Regression mit dummy Variable

Verfasst: Sa Okt 13, 2018 2:35 pm
von consuli
Du hast geschrieben:
Ninaxx hat geschrieben: Fr Okt 12, 2018 8:25 pm UV=preis und warnhinweis (nominal)
meinst in Wirklichkeit aber:

UVs:
  • preis (interval)
  • warnhinweis (nominal)
:?:

Consuli

Re: Multiple lineare Regression mit dummy Variable

Verfasst: Sa Okt 13, 2018 2:57 pm
von Athomas
Ich habe gesehen, dass Du bereits seit einem Monat hier dabei bist - und damit unsere Wünsche in Bezug auf die Ausgestaltung einer Frage kennen solltest! Falls Du bisher noch keine Zeit hattest, schau Dir bitte mal den Beitrag des Kollegen EDi zu diesem Thema an : viewtopic.php?f=20&t=11

Du hast natürlich (eigentlich) Recht, dass die Darstellung der nominalen Variable keinem Einfluss auf die Ergebnisse haben darf!
"Eigentlich" deshalb, weil man R auch klarmachen muss, dass es sich um eine nominale Variable handelt - bei ja/nein nimmt es das automatisch an, bei 1/0 muss man das explizit zum Ausdruck bringen.

Sonst sieht R nur numerische Werte, benutzt dann seinen "gesunden Menschenverstand" :) und interpretiert das Ganze als eine numerische Variable! Wenn Du partout so codieren willst, musst Du die entstandene Variable zum "Faktor" machen.

Re: Multiple lineare Regression mit dummy Variable

Verfasst: Sa Okt 13, 2018 8:22 pm
von jogo
Hallo Nina,

willkommen im Forum!
Eine Regression mit einer kategorialen Variablen (oder auch anders genannt nominal skalierten Variablen) ist eigentlich keine Regression. :shock:
Es ist bezüglich der kategorialen Variablen eine Varianzanalyse. :!:
Zum Glück sind beide statistische Verfahren lineare Modelle, weshalb die Funktion lm() mit diesen verschiedenen Typen von unabhängigen Variablen sehr gut zurecht kommt.
Trotzdem macht es einen Unterschied, ob eine Variable kategorial ist (in R genannt Faktor) oder ob sie intervall- oder ratioskaliert ist.
Die Gefahr der Verwechslung ist immer dann gegeben, wenn man händisch versucht, Faktoren in numeric umzukodieren oder eine numerische Kodierung unbedarft hernimmt, obwohl es sich um einen Faktor handelt.
Bitte zeige uns doch das Ergebnis von

Code: Alles auswählen

str(DeinDataframe)
und die Funktionsaufrufe von lm(), damit wir den Sachverhalt konkret besprechen können.

Gruß, Jörg