Problem bei Reproduzierbarkeit mit sample() und seed

Mia89 · Beitrag von **Mia89** » Sa Mai 04, 2019 12:33 pm

Hallo,

ich versuche aktuell in meinem R code den Datensatz in 70 % Trainingsdaten und 30% Testdaten zu splitten.
Der Schritt funktioniert auch. Allerdings lasse ich den gleichen Code auf einem anderen Rechner durchlaufen, so erhalte ich andere Werte, aufgrund einer anderen Aufteilung. Das ist nämlich mein problem, da die Ergebnisse reproduzierbar sein sollen.

Code: Alles auswählen

data(mtcars)

## 70% des Datensatzes
smp_size <- floor(0.70 * nrow(mtcars))

## setze einen seed um die Ergebnisse reproduzierbar zu machen
set.seed(123)
train_ind <- sample(seq_len(nrow(mtcars)), size = smp_size)
head(train_ind)
train <- mtcars[train_ind, ]
test <- mtcars[-train_ind, ]
# Als Ergebnis erhalte ich z.B. Folgende Aufteilung [1]  9 12 18 27  6 25
# Auf einem zweiten Computer erhalte ich allerdings diese: 31 15 19 14 3 10

Ich vermute es liegt irgendwie an der sample() Funktion, allerdings sollte doch durch das seed die Reproduzierbarkeit gesichert sein.
Kann mir jemand vielleicht helfen und sagen woher dieses Problem kommt?

Gruß, Mia

Beitrag von **jogo** » Sa Mai 04, 2019 12:44 pm

Hallo Mia,

werden auf den verschiedenen Computern. verschiedene Versionen von R verwendet?
Vielleicht ist für Dich relevant, was Edi neulich geschrieben hat: viewtopic.php?f=4&t=209&p=6835#p6835

Gruß, Jörg

Mia89 · Beitrag von **Mia89** » Sa Mai 04, 2019 1:47 pm

Hallo Jörg,

vielen Dank für dein Hinweis!
Ich denke es hängt auch damit zusammen, lade jetzt auch mal die ältere Version und vergleiche die Ergebnisse.

Vielen lieben Dank!
Mia

Deutsches R-Forum

Problem bei Reproduzierbarkeit mit sample() und seed

Problem bei Reproduzierbarkeit mit sample() und seed

Re: Problem bei Reproduzierbarkeit mit sample() und seed

Re: Problem bei Reproduzierbarkeit mit sample() und seed