Seite 1 von 1

CART Klassifikation für unausgewogene Datensätze

Verfasst: Mo Mär 23, 2020 2:02 pm
von mingabua2
Hey Leute, ich brauche eure Hilfe für ein Uni-Projekt aus dem Themenbereich Data Science.

Wir sollen unausgewogene Datensätze mit CART z.B fitten, und dann Techniken wie Over/Under-Sampling drüber laufen lassen und die Effekte untersuchen und dokumentieren.
Nun zu meinem Problem. Wo finde ich solche Datensätze, kennt ihr da Webseiten? Wenn ich dann so etwas wie CART anwende, dann brauche ich ja das Paket "rpart" um Entscheidungsbäume zu erstellen, aber was genau hilft dies dann beim Over/Under-Sampling?

Könnte so beispielsweise ein Code dazu aussehen?

Code: Alles auswählen

setwd("C:\\Users\\...\\Dropbox\\Uni\\Präsentation\\Datensätze")
add <- "data1.csv"
df <- read.csv(add)

# CART - Wichtige Daten selektieren
df <- mutate(df, x= as.numeric(x), y= as.numeric(y), label=factor(label))
set.seed(123)
sample = sample.split(df$x, SplitRatio = 0.70)
train = subset(df, sample==TRUE)
test = subset(df, sample==FALSE)

# grow tree (Baum wachsen lassen)
fit <- rpart(x~., data = train, method = "class")
printcp(fit)
plotcp(fit)
summary(fit)

# plot tree
plot(fit, uniform = TRUE, main="Bla Bla Bla")

# prune the table --> to avoid overfitting the data#
pfit<- prune(fit, cp=   fit$cptable[which.min(fit$cptable[,"xerror"]),"CP"])
plot(pfit, uniform=TRUE,
     main="Pruned Classification Tree for Us")
Und wofür brauche ich das Prune?

Danke im Vorraus

Re: CART Klassifikation für unausgewogene Datensätze

Verfasst: Mo Mär 23, 2020 3:15 pm
von EDi

Re: CART Klassifikation für unausgewogene Datensätze

Verfasst: Mo Mär 23, 2020 5:29 pm
von mingabua2
Vielen Dank schonmal. Wüsstest du vlt noch wo man Datensätze, am besten 2 Klassen, herbekommt? Und woran erkennt man, dass diese unausgewogen sind?

Re: CART Klassifikation für unausgewogene Datensätze

Verfasst: Mo Mär 23, 2020 8:02 pm
von EDi
Der erste Link simuliert solche Daten, der zweite nutzt ein Beispieldatensatz.
Und woran erkennt man, dass diese unausgewogen sind?
:?:
?table()

Re: CART Klassifikation für unausgewogene Datensätze

Verfasst: Mo Mär 23, 2020 9:42 pm
von mingabua2
Danke, sorry für die Noob-Fragen, bin aber leider noch ein Anfänger. Eine weitere Frage. Wenn ich mir den over/undersample Befehl von R ansehe, dann steht dort etwas von undersample(task, ....,....). Wie deklariere ich eine solche "task", dass der Over/Under-Sample Befehl korrekt angewendet wird?

Re: CART Klassifikation für unausgewogene Datensätze

Verfasst: Di Mär 24, 2020 2:06 pm
von EDi
Bitte ein reproduzierbares Beispiel posten.