Stichprobe ziehen

Joe_Gerner · Beitrag von **Joe_Gerner** » Fr Jun 15, 2018 9:22 am

Hallo,

ich habe einen Datensatz mit 1,3 Mio Objekten. Für eine Berechnung möchte ich zunächst eine Stichprobe von diesem Datensatz ziehen, die 70% vom Datensatz umfasst. Für eine Überprüfung meiner Berechnungen brauche ich jetzt die restlichen 30% des Datensatzes, wie stelle ich das am besten an?
Eine erneute Stichprobe zu ziehen macht ja keinen Sinn, da es sich um eine zufällige Stichprobenziehung handelt oder?
Hier mal mein Skript:

Code: Alles auswählen

#Stichprobe 
read_gem <- read.csv2("Data.csv")
smp_size <- floor(0.70 * nrow(read_gem))
set.seed(123)
read_gem_1<-read_gem[sample(nrow(read_gem), smp_size), ]

Vielen Dank für eure Hilfe und viele Grüße

Felix

Beitrag von **jogo** » Fr Jun 15, 2018 9:37 am

Hallo Felix,

Du solltest die Indexmenge der 70%-Auswahl Dir irgendwo speichern:

Code: Alles auswählen

#Stichprobe 
read_gem <- read.csv2("Data.csv")
smp_size <- floor(0.70 * nrow(read_gem))
set.seed(123)
I.70vH <- sample(nrow(read_gem), smp_size)
read_gem_1 <- read_gem[I.70vH, ] ### 70% der Daten
read_gem_2 <- read_gem[-I.70vH, ] ### die restlichen 30% der Daten

Gruß, Jörg
p.s.:
bitte lies viewtopic.php?f=20&t=29
(Nutzung der entsprechenden Formatierungstags)

Joe_Gerner · Beitrag von **Joe_Gerner** » Mo Jun 18, 2018 9:18 am

Hallo Jörg,

vielen Dank für deine schnelle Hilfe und den Hinweis bezüglich der richtigen Formatierung von Beiträgen werde ich in Zukunft auch umsetzen

Viele Grüße

Felix

Deutsches R-Forum

Stichprobe ziehen

Stichprobe ziehen

Re: Stichprobe ziehen

Re: Stichprobe ziehen