Problem bei Reproduzierbarkeit mit sample() und seed

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
Mia89
Beiträge: 15
Registriert: Sa Mär 30, 2019 12:39 pm

Problem bei Reproduzierbarkeit mit sample() und seed

Beitrag von Mia89 »

Hallo,

ich versuche aktuell in meinem R code den Datensatz in 70 % Trainingsdaten und 30% Testdaten zu splitten.
Der Schritt funktioniert auch. Allerdings lasse ich den gleichen Code auf einem anderen Rechner durchlaufen, so erhalte ich andere Werte, aufgrund einer anderen Aufteilung. Das ist nämlich mein problem, da die Ergebnisse reproduzierbar sein sollen.

Code: Alles auswählen

data(mtcars)

## 70% des Datensatzes
smp_size <- floor(0.70 * nrow(mtcars))

## setze einen seed um die Ergebnisse reproduzierbar zu machen
set.seed(123)
train_ind <- sample(seq_len(nrow(mtcars)), size = smp_size)
head(train_ind)
train <- mtcars[train_ind, ]
test <- mtcars[-train_ind, ]
# Als Ergebnis erhalte ich z.B. Folgende Aufteilung [1]  9 12 18 27  6 25
# Auf einem zweiten Computer erhalte ich allerdings diese: 31 15 19 14 3 10
Ich vermute es liegt irgendwie an der sample() Funktion, allerdings sollte doch durch das seed die Reproduzierbarkeit gesichert sein.
Kann mir jemand vielleicht helfen und sagen woher dieses Problem kommt?

Gruß, Mia
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Problem bei Reproduzierbarkeit mit sample() und seed

Beitrag von jogo »

Hallo Mia,

werden auf den verschiedenen Computern. verschiedene Versionen von R verwendet?
Vielleicht ist für Dich relevant, was Edi neulich geschrieben hat: viewtopic.php?f=4&t=209&p=6835#p6835

Gruß, Jörg
Mia89
Beiträge: 15
Registriert: Sa Mär 30, 2019 12:39 pm

Re: Problem bei Reproduzierbarkeit mit sample() und seed

Beitrag von Mia89 »

Hallo Jörg,

vielen Dank für dein Hinweis!
Ich denke es hängt auch damit zusammen, lade jetzt auch mal die ältere Version und vergleiche die Ergebnisse.

Vielen lieben Dank!
Mia
Antworten