Seite 1 von 1

Problem bei Reproduzierbarkeit mit sample() und seed

Verfasst: Sa Mai 04, 2019 12:33 pm
von Mia89
Hallo,

ich versuche aktuell in meinem R code den Datensatz in 70 % Trainingsdaten und 30% Testdaten zu splitten.
Der Schritt funktioniert auch. Allerdings lasse ich den gleichen Code auf einem anderen Rechner durchlaufen, so erhalte ich andere Werte, aufgrund einer anderen Aufteilung. Das ist nämlich mein problem, da die Ergebnisse reproduzierbar sein sollen.

Code: Alles auswählen

data(mtcars)

## 70% des Datensatzes
smp_size <- floor(0.70 * nrow(mtcars))

## setze einen seed um die Ergebnisse reproduzierbar zu machen
set.seed(123)
train_ind <- sample(seq_len(nrow(mtcars)), size = smp_size)
head(train_ind)
train <- mtcars[train_ind, ]
test <- mtcars[-train_ind, ]
# Als Ergebnis erhalte ich z.B. Folgende Aufteilung [1]  9 12 18 27  6 25
# Auf einem zweiten Computer erhalte ich allerdings diese: 31 15 19 14 3 10
Ich vermute es liegt irgendwie an der sample() Funktion, allerdings sollte doch durch das seed die Reproduzierbarkeit gesichert sein.
Kann mir jemand vielleicht helfen und sagen woher dieses Problem kommt?

Gruß, Mia

Re: Problem bei Reproduzierbarkeit mit sample() und seed

Verfasst: Sa Mai 04, 2019 12:44 pm
von jogo
Hallo Mia,

werden auf den verschiedenen Computern. verschiedene Versionen von R verwendet?
Vielleicht ist für Dich relevant, was Edi neulich geschrieben hat: viewtopic.php?f=4&t=209&p=6835#p6835

Gruß, Jörg

Re: Problem bei Reproduzierbarkeit mit sample() und seed

Verfasst: Sa Mai 04, 2019 1:47 pm
von Mia89
Hallo Jörg,

vielen Dank für dein Hinweis!
Ich denke es hängt auch damit zusammen, lade jetzt auch mal die ältere Version und vergleiche die Ergebnisse.

Vielen lieben Dank!
Mia