Seite 1 von 1

Großer Datensatz

Verfasst: Di Sep 17, 2019 7:37 pm
von TT-TSV
Liebe Community,

ich muss einen sehr großen (relativ simplen) Datensatz erstellen. 5 Variablen mit zumeist 0-1 Kodierung, jedoch ca. 95 Millionen Zeilen. Ich habe leider vom Informatischen keine Ahnung. Ich kann mir aber vorstellen, dass das Erstellen eines solchen Datensatzes relativ lange bis unendlich lang dauert. Schafft es das Programm oder ist dieser Datensatz einfach zu groß? Gibt es iwelche anderen Möglichkeiten so einen Datensatz zu erstellen? Irgendwelche Tipps & Tricks?

Danke vielmals für eure Antwort.

Re: Großer Datensatz

Verfasst: Di Sep 17, 2019 8:05 pm
von bigben
Hi!

Probier mal, wie lange das hier auf Deinem Computer braucht:

Code: Alles auswählen

datensatz <- data.frame(var1 = sample(0:1, 95e6, replace=TRUE),
                        var2 = sample(0:1, 95e6, replace=TRUE),
                        var3 = sample(0:1, 95e6, replace=TRUE),
                        var4 = sample(0:1, 95e6, replace=TRUE),
                        var5 = sample(0:1, 95e6, replace=TRUE))
str(datensatz)
head(datensatz)
Und danach erzählst Du uns, was Du eigentlich vorhast.

LG,
Bernhard

Re: Großer Datensatz

Verfasst: Di Sep 17, 2019 8:57 pm
von TT-TSV
Danke für die schnelle Antwort, das hat lediglich ein paar Sekunden gedauert.

Jetzt hab ich mal angefangen, jedoch dauert es bei mir deutlich länger bzw. nach 10 Minuten hab ich abgebrochen. Vielleicht liegt das an meinen Codes.

Code: Alles auswählen

a <- data.frame(Patient = 0, Groesse= 1, Alterskategorie= 1, Geschlecht = 1, Jahr= 0)
n <- 500000
a <- do.call("rbind", replicate(n, a, simplify = FALSE))
(Hier wollte ich für 500000 Menschen, die alle die gleichen Merkmale bei diesen Variablen haben jeweils eine Zeile erstellen)

Zu den Daten. Ich habe eine Excel-Datei aus der Allgemeinbevölerung, in der abhängig pro Jahr, Geschlecht, Alter und Größe in den einzelnen Zellen Häufigkeitsangaben stehen.

Wenn ich die Datei erstellt habe, möchte ich diese mit Patientendaten vergleichen (Größe, Alter).

Re: Großer Datensatz

Verfasst: Di Sep 17, 2019 10:16 pm
von jogo

Code: Alles auswählen

a <- data.frame(Patient = rep(0, 5e5), Groesse= 1, Alterskategorie= 1, Geschlecht = 1, Jahr= 0)
Gruß, Jörg

Re: Großer Datensatz

Verfasst: Di Sep 17, 2019 10:42 pm
von bigben
@TT-TSV Ich habe nicht wirklich verstanden, was Du da machen willst und mein Gefühl sagt mir, dass Du da auf einem Holzweg bist. Vielleicht versuchst Du eine Analyse in R so anzugehen, wie Du es in Excel angehen würdest, oder Du willst in R nur eine Datei erstellen und dann Millionen von Daten in Excel auswerten. Beides ist keine gute Idee.
Bitte erkläre mal in Ruhe das Ziel der Übung, nicht, wie Du zum Ziel kommen willst.

LG,Bernhard

Re: Großer Datensatz

Verfasst: Di Sep 17, 2019 11:40 pm
von TT-TSV
Ok, also ich habe in Excel eine große fertige Häufigkeitentabelle. Aus dieser Häufigkeitentabelle möchte ich den Datensatz erstellen. Tut mir Leid, wenn ich es nicht besser erklären kann. An sich ist die Idee dahinter ziemlich simpel. Ich möchte den erstellten Datensatz in R analysieren und nicht in Excel.

Re: Großer Datensatz

Verfasst: Di Sep 17, 2019 11:41 pm
von TT-TSV
Danke schon mal jetzt für die schnellen Antworten :)

Re: Großer Datensatz

Verfasst: Mi Sep 18, 2019 8:17 am
von jogo
Dann wäre doch eigentlich als Erstes das Einlesen der Daten dran, oder etwa nicht? :?

Gruß, Jörg
TT-TSV hat geschrieben: Di Sep 17, 2019 11:40 pm Ok, also ich habe in Excel eine große fertige Häufigkeitentabelle. Aus dieser Häufigkeitentabelle möchte ich den Datensatz erstellen. Tut mir Leid, wenn ich es nicht besser erklären kann. An sich ist die Idee dahinter ziemlich simpel. Ich möchte den erstellten Datensatz in R analysieren und nicht in Excel.

Re: Großer Datensatz

Verfasst: Mi Sep 18, 2019 8:21 am
von Athomas
Ok, also ich habe in Excel eine große fertige Häufigkeitentabelle.
Ich habe Schwierigkeiten zu glauben, dass Excel der "wahre" Ursprung dieser ausladenden Datei ist - oder jemand so umfangreiches Datenmaterial als Excel-Datei weitergibt!?

Re: Großer Datensatz

Verfasst: Mi Sep 18, 2019 2:12 pm
von TT-TSV
Hallo,

das Problem hat sich für mich schon erledigt. Ich habe das leider nur so weitergeschickt bekommen mit dem Wunsch, daraus was "auszuwerten". Aber wie gesagt, das ganze hat sich eh erledigt. Danke für die schnellen Antworten.