Großer Datensatz
Großer Datensatz
Liebe Community,
ich muss einen sehr großen (relativ simplen) Datensatz erstellen. 5 Variablen mit zumeist 0-1 Kodierung, jedoch ca. 95 Millionen Zeilen. Ich habe leider vom Informatischen keine Ahnung. Ich kann mir aber vorstellen, dass das Erstellen eines solchen Datensatzes relativ lange bis unendlich lang dauert. Schafft es das Programm oder ist dieser Datensatz einfach zu groß? Gibt es iwelche anderen Möglichkeiten so einen Datensatz zu erstellen? Irgendwelche Tipps & Tricks?
Danke vielmals für eure Antwort.
ich muss einen sehr großen (relativ simplen) Datensatz erstellen. 5 Variablen mit zumeist 0-1 Kodierung, jedoch ca. 95 Millionen Zeilen. Ich habe leider vom Informatischen keine Ahnung. Ich kann mir aber vorstellen, dass das Erstellen eines solchen Datensatzes relativ lange bis unendlich lang dauert. Schafft es das Programm oder ist dieser Datensatz einfach zu groß? Gibt es iwelche anderen Möglichkeiten so einen Datensatz zu erstellen? Irgendwelche Tipps & Tricks?
Danke vielmals für eure Antwort.
Re: Großer Datensatz
Hi!
Probier mal, wie lange das hier auf Deinem Computer braucht:
Und danach erzählst Du uns, was Du eigentlich vorhast.
LG,
Bernhard
Probier mal, wie lange das hier auf Deinem Computer braucht:
Code: Alles auswählen
datensatz <- data.frame(var1 = sample(0:1, 95e6, replace=TRUE),
var2 = sample(0:1, 95e6, replace=TRUE),
var3 = sample(0:1, 95e6, replace=TRUE),
var4 = sample(0:1, 95e6, replace=TRUE),
var5 = sample(0:1, 95e6, replace=TRUE))
str(datensatz)
head(datensatz)
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Großer Datensatz
Danke für die schnelle Antwort, das hat lediglich ein paar Sekunden gedauert.
Jetzt hab ich mal angefangen, jedoch dauert es bei mir deutlich länger bzw. nach 10 Minuten hab ich abgebrochen. Vielleicht liegt das an meinen Codes.
(Hier wollte ich für 500000 Menschen, die alle die gleichen Merkmale bei diesen Variablen haben jeweils eine Zeile erstellen)
Zu den Daten. Ich habe eine Excel-Datei aus der Allgemeinbevölerung, in der abhängig pro Jahr, Geschlecht, Alter und Größe in den einzelnen Zellen Häufigkeitsangaben stehen.
Wenn ich die Datei erstellt habe, möchte ich diese mit Patientendaten vergleichen (Größe, Alter).
Jetzt hab ich mal angefangen, jedoch dauert es bei mir deutlich länger bzw. nach 10 Minuten hab ich abgebrochen. Vielleicht liegt das an meinen Codes.
Code: Alles auswählen
a <- data.frame(Patient = 0, Groesse= 1, Alterskategorie= 1, Geschlecht = 1, Jahr= 0)
n <- 500000
a <- do.call("rbind", replicate(n, a, simplify = FALSE))
Zu den Daten. Ich habe eine Excel-Datei aus der Allgemeinbevölerung, in der abhängig pro Jahr, Geschlecht, Alter und Größe in den einzelnen Zellen Häufigkeitsangaben stehen.
Wenn ich die Datei erstellt habe, möchte ich diese mit Patientendaten vergleichen (Größe, Alter).
Zuletzt geändert von jogo am Di Sep 17, 2019 10:17 pm, insgesamt 1-mal geändert.
Grund: Formatierung
Grund: Formatierung
Re: Großer Datensatz
Code: Alles auswählen
a <- data.frame(Patient = rep(0, 5e5), Groesse= 1, Alterskategorie= 1, Geschlecht = 1, Jahr= 0)
Re: Großer Datensatz
@TT-TSV Ich habe nicht wirklich verstanden, was Du da machen willst und mein Gefühl sagt mir, dass Du da auf einem Holzweg bist. Vielleicht versuchst Du eine Analyse in R so anzugehen, wie Du es in Excel angehen würdest, oder Du willst in R nur eine Datei erstellen und dann Millionen von Daten in Excel auswerten. Beides ist keine gute Idee.
Bitte erkläre mal in Ruhe das Ziel der Übung, nicht, wie Du zum Ziel kommen willst.
LG,Bernhard
Bitte erkläre mal in Ruhe das Ziel der Übung, nicht, wie Du zum Ziel kommen willst.
LG,Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Großer Datensatz
Ok, also ich habe in Excel eine große fertige Häufigkeitentabelle. Aus dieser Häufigkeitentabelle möchte ich den Datensatz erstellen. Tut mir Leid, wenn ich es nicht besser erklären kann. An sich ist die Idee dahinter ziemlich simpel. Ich möchte den erstellten Datensatz in R analysieren und nicht in Excel.
Re: Großer Datensatz
Danke schon mal jetzt für die schnellen Antworten
Re: Großer Datensatz
Dann wäre doch eigentlich als Erstes das Einlesen der Daten dran, oder etwa nicht?
Gruß, Jörg
Gruß, Jörg
TT-TSV hat geschrieben: ↑Di Sep 17, 2019 11:40 pm Ok, also ich habe in Excel eine große fertige Häufigkeitentabelle. Aus dieser Häufigkeitentabelle möchte ich den Datensatz erstellen. Tut mir Leid, wenn ich es nicht besser erklären kann. An sich ist die Idee dahinter ziemlich simpel. Ich möchte den erstellten Datensatz in R analysieren und nicht in Excel.
Re: Großer Datensatz
Ich habe Schwierigkeiten zu glauben, dass Excel der "wahre" Ursprung dieser ausladenden Datei ist - oder jemand so umfangreiches Datenmaterial als Excel-Datei weitergibt!?Ok, also ich habe in Excel eine große fertige Häufigkeitentabelle.
Re: Großer Datensatz
Hallo,
das Problem hat sich für mich schon erledigt. Ich habe das leider nur so weitergeschickt bekommen mit dem Wunsch, daraus was "auszuwerten". Aber wie gesagt, das ganze hat sich eh erledigt. Danke für die schnellen Antworten.
das Problem hat sich für mich schon erledigt. Ich habe das leider nur so weitergeschickt bekommen mit dem Wunsch, daraus was "auszuwerten". Aber wie gesagt, das ganze hat sich eh erledigt. Danke für die schnellen Antworten.