Hallo,
ich habe einen Datensatz mit 200 Altersangaben. Für eine bessere und detailliertere Auswertung in einer Regressionsanalyse z.B. möchte ich diesen Datensatz gerne in Untergruppen unterteilen.
Ich denke, dass ich den Befehl "cut" hierfür verwenden muss, jedoch weiß ich nicht genau, wie ich dies in R dann eingeben soll:
Die Variable heißt: Alter
Diese soll in 4 Gruppen unterteilt werden:
AlterA: 15 bis 30 Jahre
AlterB: 31 bis 45 Jahre
AlterC: 46 bis 60 Jahre
AlterD: 61 und mehr
Anschließend möchte ich die Einteilung in meinen Datensatz "daten" zuordnen.
Für eine Antwort wäre ich sehr dankbar! Vielen Dank schon mal im Voraus!
VG
Alter aus Datensatz in Gruppen einteilen
Re: Alter aus Datensatz in Gruppen einteilen
Dass eine Gruppierung einen Gewinn an Detaillierung bringt, dürfte wohl eine Randmeinung darstellen !Für eine bessere und detailliertere Auswertung in einer Regressionsanalyse z.B. möchte ich diesen Datensatz gerne in Untergruppen unterteilen.
Aber mit "cut" liegst Du völlig richtig:
Code: Alles auswählen
DF <- data.frame(Alter=sample(15:115, 50, replace=TRUE))
DF$Altersgrp <- cut(DF$Alter, breaks=c(14,30,45,60,Inf))
Re: Alter aus Datensatz in Gruppen einteilen
Vielen Dank für die schnelle Antwort, auch deine Meinung dazu hat mir sehr weitergeholfen!
Re: Alter aus Datensatz in Gruppen einteilen
Schon oft gesehen in Machine Learning: Wenn Regression nicht klappt, macht man eben Klassifikation Dann werden auch die Goodness of fit werte direkt besserAthomas hat geschrieben: ↑Di Mai 25, 2021 3:12 pmDass eine Gruppierung einen Gewinn an Detaillierung bringt, dürfte wohl eine Randmeinung darstellen !Für eine bessere und detailliertere Auswertung in einer Regressionsanalyse z.B. möchte ich diesen Datensatz gerne in Untergruppen unterteilen.
Aber mit "cut" liegst Du völlig richtig:Code: Alles auswählen
DF <- data.frame(Alter=sample(15:115, 50, replace=TRUE)) DF$Altersgrp <- cut(DF$Alter, breaks=c(14,30,45,60,Inf))
Naja, wer sich gerne selbst betrügen will...
Hier geht es aber um die Prädikatoren:
@Exterion: Ich würde empfehlen eher die Daten sich anzuschauen und darauf hin das Model anzupassen (z.b. quadritischer Term o.ä.). Durch ein Aggregation verliert man IMMER auf Information...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.