Seite 1 von 1

Stichprobe ziehen

Verfasst: Fr Jun 15, 2018 9:22 am
von Joe_Gerner
Hallo,

ich habe einen Datensatz mit 1,3 Mio Objekten. Für eine Berechnung möchte ich zunächst eine Stichprobe von diesem Datensatz ziehen, die 70% vom Datensatz umfasst. Für eine Überprüfung meiner Berechnungen brauche ich jetzt die restlichen 30% des Datensatzes, wie stelle ich das am besten an?
Eine erneute Stichprobe zu ziehen macht ja keinen Sinn, da es sich um eine zufällige Stichprobenziehung handelt oder?
Hier mal mein Skript:

Code: Alles auswählen

#Stichprobe 
read_gem <- read.csv2("Data.csv")
smp_size <- floor(0.70 * nrow(read_gem))
set.seed(123)
read_gem_1<-read_gem[sample(nrow(read_gem), smp_size), ]
Vielen Dank für eure Hilfe und viele Grüße

Felix

Re: Stichprobe ziehen

Verfasst: Fr Jun 15, 2018 9:37 am
von jogo
Hallo Felix,

Du solltest die Indexmenge der 70%-Auswahl Dir irgendwo speichern:

Code: Alles auswählen

#Stichprobe 
read_gem <- read.csv2("Data.csv")
smp_size <- floor(0.70 * nrow(read_gem))
set.seed(123)
I.70vH <- sample(nrow(read_gem), smp_size)
read_gem_1 <- read_gem[I.70vH, ] ### 70% der Daten
read_gem_2 <- read_gem[-I.70vH, ] ### die restlichen 30% der Daten
Gruß, Jörg
p.s.:
bitte lies viewtopic.php?f=20&t=29
(Nutzung der entsprechenden Formatierungstags)

Re: Stichprobe ziehen

Verfasst: Mo Jun 18, 2018 9:18 am
von Joe_Gerner
Hallo Jörg,

vielen Dank für deine schnelle Hilfe und den Hinweis bezüglich der richtigen Formatierung von Beiträgen werde ich in Zukunft auch umsetzen :)

Viele Grüße

Felix