CART Klassifikation für unausgewogene Datensätze
Verfasst: Mo Mär 23, 2020 2:02 pm
Hey Leute, ich brauche eure Hilfe für ein Uni-Projekt aus dem Themenbereich Data Science.
Wir sollen unausgewogene Datensätze mit CART z.B fitten, und dann Techniken wie Over/Under-Sampling drüber laufen lassen und die Effekte untersuchen und dokumentieren.
Nun zu meinem Problem. Wo finde ich solche Datensätze, kennt ihr da Webseiten? Wenn ich dann so etwas wie CART anwende, dann brauche ich ja das Paket "rpart" um Entscheidungsbäume zu erstellen, aber was genau hilft dies dann beim Over/Under-Sampling?
Könnte so beispielsweise ein Code dazu aussehen?
Und wofür brauche ich das Prune?
Danke im Vorraus
Wir sollen unausgewogene Datensätze mit CART z.B fitten, und dann Techniken wie Over/Under-Sampling drüber laufen lassen und die Effekte untersuchen und dokumentieren.
Nun zu meinem Problem. Wo finde ich solche Datensätze, kennt ihr da Webseiten? Wenn ich dann so etwas wie CART anwende, dann brauche ich ja das Paket "rpart" um Entscheidungsbäume zu erstellen, aber was genau hilft dies dann beim Over/Under-Sampling?
Könnte so beispielsweise ein Code dazu aussehen?
Code: Alles auswählen
setwd("C:\\Users\\...\\Dropbox\\Uni\\Präsentation\\Datensätze")
add <- "data1.csv"
df <- read.csv(add)
# CART - Wichtige Daten selektieren
df <- mutate(df, x= as.numeric(x), y= as.numeric(y), label=factor(label))
set.seed(123)
sample = sample.split(df$x, SplitRatio = 0.70)
train = subset(df, sample==TRUE)
test = subset(df, sample==FALSE)
# grow tree (Baum wachsen lassen)
fit <- rpart(x~., data = train, method = "class")
printcp(fit)
plotcp(fit)
summary(fit)
# plot tree
plot(fit, uniform = TRUE, main="Bla Bla Bla")
# prune the table --> to avoid overfitting the data#
pfit<- prune(fit, cp= fit$cptable[which.min(fit$cptable[,"xerror"]),"CP"])
plot(pfit, uniform=TRUE,
main="Pruned Classification Tree for Us")
Danke im Vorraus