Problem bei Reproduzierbarkeit mit sample() und seed
Verfasst: Sa Mai 04, 2019 12:33 pm
Hallo,
ich versuche aktuell in meinem R code den Datensatz in 70 % Trainingsdaten und 30% Testdaten zu splitten.
Der Schritt funktioniert auch. Allerdings lasse ich den gleichen Code auf einem anderen Rechner durchlaufen, so erhalte ich andere Werte, aufgrund einer anderen Aufteilung. Das ist nämlich mein problem, da die Ergebnisse reproduzierbar sein sollen.
Ich vermute es liegt irgendwie an der sample() Funktion, allerdings sollte doch durch das seed die Reproduzierbarkeit gesichert sein.
Kann mir jemand vielleicht helfen und sagen woher dieses Problem kommt?
Gruß, Mia
ich versuche aktuell in meinem R code den Datensatz in 70 % Trainingsdaten und 30% Testdaten zu splitten.
Der Schritt funktioniert auch. Allerdings lasse ich den gleichen Code auf einem anderen Rechner durchlaufen, so erhalte ich andere Werte, aufgrund einer anderen Aufteilung. Das ist nämlich mein problem, da die Ergebnisse reproduzierbar sein sollen.
Code: Alles auswählen
data(mtcars)
## 70% des Datensatzes
smp_size <- floor(0.70 * nrow(mtcars))
## setze einen seed um die Ergebnisse reproduzierbar zu machen
set.seed(123)
train_ind <- sample(seq_len(nrow(mtcars)), size = smp_size)
head(train_ind)
train <- mtcars[train_ind, ]
test <- mtcars[-train_ind, ]
# Als Ergebnis erhalte ich z.B. Folgende Aufteilung [1] 9 12 18 27 6 25
# Auf einem zweiten Computer erhalte ich allerdings diese: 31 15 19 14 3 10
Kann mir jemand vielleicht helfen und sagen woher dieses Problem kommt?
Gruß, Mia