nominale Variablen in Dummy-Variablen umwandeln

Beitrag von **jogo** » Di Aug 06, 2019 8:48 am

Luisa93 hat geschrieben: ↑Mo Aug 05, 2019 10:24 pm Kann es manchmal trotzdem sinnvoll sein, sich zunächst die einzelnen Variablen anzuschauen und dann im Gesamten?

na klar

Gibt es eine Möglichkeit die unabhängigen Variablen auf Multikollinarität zu überprüfen, wenn sich nicht numerisch sind?

Das ist eine interessante Frage. Die Definition der Multikolliniarität beinhaltet auch die mögliche Bildung von Linearkombinationen.
Für die Bildung von Linearkombinationen muss man mit einem Skalar multiplizieren können und addieren können.
Wie dies bei nichtnumerischen Daten aussehen soll, kann ich mir noch nicht recht vorstellen.

Gruß, Jörg

Luisa93 · Beitrag von **Luisa93** » Di Aug 06, 2019 9:19 pm

Vielen Dank schonmal für die Hilfe bis hier hin!

Es haben sich allerdings weitere Fragen ergeben:

1. Ich habe gesehen, dass man in SPSS eine schrittweise Regression z.B. mittels einer Rückwärtselimination durchführen kann. Ist das in R auch möglich?

2. In der Regressionsanalyse hat R automatisch die Referenzkategorie festgelegt. Ich hätte eigentlich gerne, die Ausprägung mit der meisten Häufigkeit in der Refernzgruppe. Ist das möglich?

Beitrag von **EDi** » Di Aug 06, 2019 10:06 pm

1. Ich habe gesehen, dass man in SPSS eine schrittweise Regression z.B. mittels einer Rückwärtselimination durchführen kann. Ist das in R auch möglich?

Ja, z.B. ?step...

In der Regressionsanalyse hat R automatisch die Referenzkategorie festgelegt. Ich hätte eigentlich gerne, die Ausprägung mit der meisten Häufigkeit in der Refernzgruppe. Ist das möglich?

Ja. Standardmäßig sind die Faktorlevels alphabetisch sortiert und der erste wird als Referenz genommen. Zum ändern siehe ?relevel.

Luisa93 · Beitrag von **Luisa93** » Di Aug 06, 2019 10:19 pm

relevel() habe ich schon probiert, bekomme aber eine Fehlermeldung zurückgegeben.

: relevel().PNG (7.02 KiB) 548 mal betrachtet

Ist es möglich, gleich einen Befehl festzulegen, dass er immer das Merkmal, mit der meisten Häufigkeit nimmt? Oder muss jeweils vorher ermittelt werden, welches am häufigsten vorkommt?

Luisa93 · Beitrag von **Luisa93** » Di Aug 06, 2019 10:36 pm

Wie genau muss der Code für step() aussehen. Es tut mir leid für solche Fragen. Aber ich kenne mich leider wirklich nicht damit aus und hab daher meine Schwierigkeiten. Ich möchte mit einem Signifikanzniveau von 10% vorgehen.

Beitrag von **EDi** » Mi Aug 07, 2019 12:28 am

Vielleicht hilft das ja weiter:

Code: Alles auswählen

x <- factor(c("A", "B", "C"), ordered = TRUE)
relevel(x, "B")
str(x)

y <- factor(c("A", "B", "C"))
relevel(y, "B")
str(y)

Beitrag von **EDi** » Mi Aug 07, 2019 12:32 am

st es möglich, gleich einen Befehl festzulegen, dass er immer das Merkmal, mit der meisten Häufigkeit nimmt? Oder muss jeweils vorher ermittelt werden, welches am häufigsten vorkommt?

Du kannst dir deine eigene relevel funktion schreiben die immer die häufigste Grupper als referent nimmt.

Z.B. so

Code: Alles auswählen


my_relevel <- function(x) {
  relevel(y, names(which.max(table(x)))[1])
}

x <- factor(sample(c("A", "B", "B", "C")))
my_relevel(x)
x2 <- factor(sample(c("A", "B", "C", "C")))
my_relevel(x2)

Beitrag von **EDi** » Mi Aug 07, 2019 12:44 am

Wie genau muss der Code für step() aussehen.

Siehe ?step. Oder

Code: Alles auswählen

example(step)

step() macht das aber Anhand vom AIC als Kriterium.
Aber diese stepwise Methoden taugen in den meisten Fällen sowieso nichts, siehe z.B. https://stats.stackexchange.com/questio ... 0856#20856

Anstatt step() könnte man auch einfach alle möglichen Modelle rechnen und das beste (anhand irgendeines Kriteriums) nehmen (z.b. mit dredge() https://www.rdocumentation.org/packages ... ics/dredge), aber das ist auch nicht unbedingt besser...

Aus dem Satz hier

Ich möchte mit einem Signifikanzniveau von 10% vorgehen.

lese ich aber heraus dass du p-werte als Kriterium haben willst? Da will ich besser keine weiteren Tipps geben - da halte ich noch weniger von...

Luisa93 · Beitrag von **Luisa93** » Mi Aug 07, 2019 12:59 am

Hat beides geklappt! Vielen Dank!

x <- factor(c("A", "B", "C"), ordered = TRUE)
relevel(x, "B")
str(x)

Musste hier allerdings ordered = FALSE nehmen.

Ich wollte dies eigentlich anhand einem partiellen F-Test machen. Dachte man bräuchte da evtl. auch ein Signifikanzniveau. Bin da etwas überfragt

Kann mir da jemand weiterhelfen?

Deutsches R-Forum

nominale Variablen in Dummy-Variablen umwandeln

Re: nominale Variablen in Dummy-Variablen umwandeln

Re: nominale Variablen in Dummy-Variablen umwandeln

Re: nominale Variablen in Dummy-Variablen umwandeln

Re: nominale Variablen in Dummy-Variablen umwandeln

Re: nominale Variablen in Dummy-Variablen umwandeln

Re: nominale Variablen in Dummy-Variablen umwandeln

Re: nominale Variablen in Dummy-Variablen umwandeln

Re: nominale Variablen in Dummy-Variablen umwandeln

Re: nominale Variablen in Dummy-Variablen umwandeln