Gruppieren von Merkmalsausprägungen

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
Ramony
Beiträge: 3
Registriert: So Jul 14, 2019 9:46 am

Gruppieren von Merkmalsausprägungen

Beitrag von Ramony »

Hallo zusammen,

meine Erfahrung mit R ist leider eher minimal und bräuchte bei folgendem Problem Unterstützung.

Ich habe folgenden Datensatz - den hatte ich bereits von NAs bereinigt und ein Resample gemacht.

Code: Alles auswählen

Wann Geschlecht orig.id
2147    3          2    2134
1482    4          2    1474
1215    1          2    1207
1262    3          2    1254
1588    4          2    1580
1734    3          1    1724

Code: Alles auswählen

data.frame':	10000 obs. of  3 variables:
 $ Wann      : int  3 4 1 3 4 3 5 5 4 5 ...
 $ Geschlecht: int  2 2 2 2 2 1 2 1 2 2 ...
 $ orig.id   : chr  "2134" "1474" "1207" "1254" ...
Der Datensatz besteht aus Wann (das ist unterteilt in 6 versch. Zeiträume) und eben Geschlecht (1&2).
Ich möchte prüfen, ob Geschlecht 1 im Zeitraum 5-6 anteilig größer ist als Geschlecht 2 bzw. für die Hypothese eben der Test, dass Geschlecht1 und Geschlecht2 im Zeitraum 5-6 anteilig gleich sind, damit ich diese dann (vermutlich) verwerfen kann.

Dafür wollte ich am Ende gerne folgenden Befehl benutzen, um meine Hypothese zu prüfen:

Code: Alles auswählen

diff.stipro <- diffprop(Geschlecht ~ Wann success = "1", data = M.resample)
Hier zeigt mir R aber den Fehler an, dass Wann eben zu viele Ausprägungen hat und das nicht funktioniert, daher wollte ich die Ausprägungen 1-4 und 5-6 grupppieren.

Hier stoße ich nun an meine Grenzen. Kann mir jemand sagen, wie ich eventuell eine neue Spalte hinzufüge (bei mir hat nichts funktioniert) und hier dann sagen kann dass Zeitraum(Wann) 1-4 Gruppe1 ist und Zeitraum 5-6 ist Gruppe2. Natürlich soll das Geschlecht 1 und 2 weiterhin so bestehen bleiben.

Mein Ziel ist am Ende folgenden Test durchzuführen, um einen p-Wert zu bekommen:

Code: Alles auswählen

prop( ~ abs(diffprop) >= abs(diff.stipro), data = M.resample)
Wenn noch mehr Infos notwendig sind, lasst es mich wissen.

Vielen Dank
Ramona
Ramony
Beiträge: 3
Registriert: So Jul 14, 2019 9:46 am

Re: Gruppieren von Merkmalsausprägungen

Beitrag von Ramony »

Nachtrag:

Mittlerweile habe ich es geschafft, eine neue Variable hinzuzufügen:

Code: Alles auswählen

 M.resample.group <- mutate(M.resample, zeitraumspät = Wann > 4)
head(M.resample.group) 

Wann Geschlecht orig.id zeitraumspät
1    3          2    2134        FALSE
2    4          2    1474        FALSE
3    1          2    1207        FALSE
4    3          2    1254        FALSE
5    4          2    1580        FALSE
6    3          1    1724        FALSE
Zeitraum 1-4 ist jetzt FALSE und Zeitraum 5-6 ist TRUE.

Dann habe ich mir angeschaut, wie die prop bei den Männern ist:

Code: Alles auswählen

 prop(Geschlecht ~ zeitraumspät, success = "1", data = M.resample.group)
Und wie groß der Unterschied ist:

Code: Alles auswählen

 M.resample.group.diffprop <- diffprop(Geschlecht ~ zeitraumspät, success = "1", data = M.resample.group) 
Und eigentlich würde ich jetzt nur noch gerne den p-Wert ermitteln... aber hier hängts wieder.
Ich habe folgendes probiert:

Code: Alles auswählen

 prop ( ~ abs(diffprop) >= abs(M.resample.group.diffprop), data = M.resample.group.diffprop) 
Wie bekomme ich nun den p-Wert raus, ob die diffprop 19,3% signifikant ist.

Danke, Ramona
jogo
Beiträge: 2086
Registriert: Fr Okt 07, 2016 8:25 am

Re: Gruppieren von Merkmalsausprägungen

Beitrag von jogo »

Hallo Ramona,

bei mir gibt es keine Funktion prop()
Hast Du die Funktion selber definiert oder stammt sie aus einem Paket?

Gruß, Jörg
Antworten