Seite 1 von 1

Alter aus Datensatz in Gruppen einteilen

Verfasst: Di Mai 25, 2021 2:44 pm
von Exterion
Hallo,

ich habe einen Datensatz mit 200 Altersangaben. Für eine bessere und detailliertere Auswertung in einer Regressionsanalyse z.B. möchte ich diesen Datensatz gerne in Untergruppen unterteilen.

Ich denke, dass ich den Befehl "cut" hierfür verwenden muss, jedoch weiß ich nicht genau, wie ich dies in R dann eingeben soll:


Die Variable heißt: Alter

Diese soll in 4 Gruppen unterteilt werden:
AlterA: 15 bis 30 Jahre
AlterB: 31 bis 45 Jahre
AlterC: 46 bis 60 Jahre
AlterD: 61 und mehr

Anschließend möchte ich die Einteilung in meinen Datensatz "daten" zuordnen.

Für eine Antwort wäre ich sehr dankbar! Vielen Dank schon mal im Voraus!

VG

Re: Alter aus Datensatz in Gruppen einteilen

Verfasst: Di Mai 25, 2021 3:12 pm
von Athomas
Für eine bessere und detailliertere Auswertung in einer Regressionsanalyse z.B. möchte ich diesen Datensatz gerne in Untergruppen unterteilen.
Dass eine Gruppierung einen Gewinn an Detaillierung bringt, dürfte wohl eine Randmeinung darstellen :lol: !
Aber mit "cut" liegst Du völlig richtig:

Code: Alles auswählen

DF <- data.frame(Alter=sample(15:115, 50, replace=TRUE))
DF$Altersgrp <- cut(DF$Alter, breaks=c(14,30,45,60,Inf))

Re: Alter aus Datensatz in Gruppen einteilen

Verfasst: Di Mai 25, 2021 4:00 pm
von Exterion
Vielen Dank für die schnelle Antwort, auch deine Meinung dazu hat mir sehr weitergeholfen! :)

Re: Alter aus Datensatz in Gruppen einteilen

Verfasst: Di Mai 25, 2021 9:23 pm
von EDi
Athomas hat geschrieben: Di Mai 25, 2021 3:12 pm
Für eine bessere und detailliertere Auswertung in einer Regressionsanalyse z.B. möchte ich diesen Datensatz gerne in Untergruppen unterteilen.
Dass eine Gruppierung einen Gewinn an Detaillierung bringt, dürfte wohl eine Randmeinung darstellen :lol: !
Aber mit "cut" liegst Du völlig richtig:

Code: Alles auswählen

DF <- data.frame(Alter=sample(15:115, 50, replace=TRUE))
DF$Altersgrp <- cut(DF$Alter, breaks=c(14,30,45,60,Inf))
Schon oft gesehen in Machine Learning: Wenn Regression nicht klappt, macht man eben Klassifikation :roll: Dann werden auch die Goodness of fit werte direkt besser :roll:
Naja, wer sich gerne selbst betrügen will...

Hier geht es aber um die Prädikatoren:
@Exterion: Ich würde empfehlen eher die Daten sich anzuschauen und darauf hin das Model anzupassen (z.b. quadritischer Term o.ä.). Durch ein Aggregation verliert man IMMER auf Information...