CART Klassifikation für unausgewogene Datensätze

Entscheidungsbäume, Random Forest, Support Vektor Maschinen, Neuronale Netze, ...

Moderator: consuli

Antworten
mingabua2
Beiträge: 3
Registriert: Mo Mär 23, 2020 1:40 pm

CART Klassifikation für unausgewogene Datensätze

Beitrag von mingabua2 »

Hey Leute, ich brauche eure Hilfe für ein Uni-Projekt aus dem Themenbereich Data Science.

Wir sollen unausgewogene Datensätze mit CART z.B fitten, und dann Techniken wie Over/Under-Sampling drüber laufen lassen und die Effekte untersuchen und dokumentieren.
Nun zu meinem Problem. Wo finde ich solche Datensätze, kennt ihr da Webseiten? Wenn ich dann so etwas wie CART anwende, dann brauche ich ja das Paket "rpart" um Entscheidungsbäume zu erstellen, aber was genau hilft dies dann beim Over/Under-Sampling?

Könnte so beispielsweise ein Code dazu aussehen?

Code: Alles auswählen

setwd("C:\\Users\\...\\Dropbox\\Uni\\Präsentation\\Datensätze")
add <- "data1.csv"
df <- read.csv(add)

# CART - Wichtige Daten selektieren
df <- mutate(df, x= as.numeric(x), y= as.numeric(y), label=factor(label))
set.seed(123)
sample = sample.split(df$x, SplitRatio = 0.70)
train = subset(df, sample==TRUE)
test = subset(df, sample==FALSE)

# grow tree (Baum wachsen lassen)
fit <- rpart(x~., data = train, method = "class")
printcp(fit)
plotcp(fit)
summary(fit)

# plot tree
plot(fit, uniform = TRUE, main="Bla Bla Bla")

# prune the table --> to avoid overfitting the data#
pfit<- prune(fit, cp=   fit$cptable[which.min(fit$cptable[,"xerror"]),"CP"])
plot(pfit, uniform=TRUE,
     main="Pruned Classification Tree for Us")
Und wofür brauche ich das Prune?

Danke im Vorraus
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: CART Klassifikation für unausgewogene Datensätze

Beitrag von EDi »

Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
mingabua2
Beiträge: 3
Registriert: Mo Mär 23, 2020 1:40 pm

Re: CART Klassifikation für unausgewogene Datensätze

Beitrag von mingabua2 »

Vielen Dank schonmal. Wüsstest du vlt noch wo man Datensätze, am besten 2 Klassen, herbekommt? Und woran erkennt man, dass diese unausgewogen sind?
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: CART Klassifikation für unausgewogene Datensätze

Beitrag von EDi »

Der erste Link simuliert solche Daten, der zweite nutzt ein Beispieldatensatz.
Und woran erkennt man, dass diese unausgewogen sind?
:?:
?table()
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
mingabua2
Beiträge: 3
Registriert: Mo Mär 23, 2020 1:40 pm

Re: CART Klassifikation für unausgewogene Datensätze

Beitrag von mingabua2 »

Danke, sorry für die Noob-Fragen, bin aber leider noch ein Anfänger. Eine weitere Frage. Wenn ich mir den over/undersample Befehl von R ansehe, dann steht dort etwas von undersample(task, ....,....). Wie deklariere ich eine solche "task", dass der Over/Under-Sample Befehl korrekt angewendet wird?
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: CART Klassifikation für unausgewogene Datensätze

Beitrag von EDi »

Bitte ein reproduzierbares Beispiel posten.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten