Großer Datensatz

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
TT-TSV
Beiträge: 5
Registriert: Di Sep 17, 2019 7:23 pm

Großer Datensatz

Beitrag von TT-TSV » Di Sep 17, 2019 7:37 pm

Liebe Community,

ich muss einen sehr großen (relativ simplen) Datensatz erstellen. 5 Variablen mit zumeist 0-1 Kodierung, jedoch ca. 95 Millionen Zeilen. Ich habe leider vom Informatischen keine Ahnung. Ich kann mir aber vorstellen, dass das Erstellen eines solchen Datensatzes relativ lange bis unendlich lang dauert. Schafft es das Programm oder ist dieser Datensatz einfach zu groß? Gibt es iwelche anderen Möglichkeiten so einen Datensatz zu erstellen? Irgendwelche Tipps & Tricks?

Danke vielmals für eure Antwort.

bigben
Beiträge: 1065
Registriert: Mi Okt 12, 2016 9:09 am

Re: Großer Datensatz

Beitrag von bigben » Di Sep 17, 2019 8:05 pm

Hi!

Probier mal, wie lange das hier auf Deinem Computer braucht:

Code: Alles auswählen

datensatz <- data.frame(var1 = sample(0:1, 95e6, replace=TRUE),
                        var2 = sample(0:1, 95e6, replace=TRUE),
                        var3 = sample(0:1, 95e6, replace=TRUE),
                        var4 = sample(0:1, 95e6, replace=TRUE),
                        var5 = sample(0:1, 95e6, replace=TRUE))
str(datensatz)
head(datensatz)
Und danach erzählst Du uns, was Du eigentlich vorhast.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte

TT-TSV
Beiträge: 5
Registriert: Di Sep 17, 2019 7:23 pm

Re: Großer Datensatz

Beitrag von TT-TSV » Di Sep 17, 2019 8:57 pm

Danke für die schnelle Antwort, das hat lediglich ein paar Sekunden gedauert.

Jetzt hab ich mal angefangen, jedoch dauert es bei mir deutlich länger bzw. nach 10 Minuten hab ich abgebrochen. Vielleicht liegt das an meinen Codes.

Code: Alles auswählen

a <- data.frame(Patient = 0, Groesse= 1, Alterskategorie= 1, Geschlecht = 1, Jahr= 0)
n <- 500000
a <- do.call("rbind", replicate(n, a, simplify = FALSE))
(Hier wollte ich für 500000 Menschen, die alle die gleichen Merkmale bei diesen Variablen haben jeweils eine Zeile erstellen)

Zu den Daten. Ich habe eine Excel-Datei aus der Allgemeinbevölerung, in der abhängig pro Jahr, Geschlecht, Alter und Größe in den einzelnen Zellen Häufigkeitsangaben stehen.

Wenn ich die Datei erstellt habe, möchte ich diese mit Patientendaten vergleichen (Größe, Alter).
Zuletzt geändert von jogo am Di Sep 17, 2019 10:17 pm, insgesamt 1-mal geändert.
Grund: Formatierung

jogo
Beiträge: 1479
Registriert: Fr Okt 07, 2016 8:25 am

Re: Großer Datensatz

Beitrag von jogo » Di Sep 17, 2019 10:16 pm

Code: Alles auswählen

a <- data.frame(Patient = rep(0, 5e5), Groesse= 1, Alterskategorie= 1, Geschlecht = 1, Jahr= 0)
Gruß, Jörg

bigben
Beiträge: 1065
Registriert: Mi Okt 12, 2016 9:09 am

Re: Großer Datensatz

Beitrag von bigben » Di Sep 17, 2019 10:42 pm

@TT-TSV Ich habe nicht wirklich verstanden, was Du da machen willst und mein Gefühl sagt mir, dass Du da auf einem Holzweg bist. Vielleicht versuchst Du eine Analyse in R so anzugehen, wie Du es in Excel angehen würdest, oder Du willst in R nur eine Datei erstellen und dann Millionen von Daten in Excel auswerten. Beides ist keine gute Idee.
Bitte erkläre mal in Ruhe das Ziel der Übung, nicht, wie Du zum Ziel kommen willst.

LG,Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte

TT-TSV
Beiträge: 5
Registriert: Di Sep 17, 2019 7:23 pm

Re: Großer Datensatz

Beitrag von TT-TSV » Di Sep 17, 2019 11:40 pm

Ok, also ich habe in Excel eine große fertige Häufigkeitentabelle. Aus dieser Häufigkeitentabelle möchte ich den Datensatz erstellen. Tut mir Leid, wenn ich es nicht besser erklären kann. An sich ist die Idee dahinter ziemlich simpel. Ich möchte den erstellten Datensatz in R analysieren und nicht in Excel.

TT-TSV
Beiträge: 5
Registriert: Di Sep 17, 2019 7:23 pm

Re: Großer Datensatz

Beitrag von TT-TSV » Di Sep 17, 2019 11:41 pm

Danke schon mal jetzt für die schnellen Antworten :)

jogo
Beiträge: 1479
Registriert: Fr Okt 07, 2016 8:25 am

Re: Großer Datensatz

Beitrag von jogo » Mi Sep 18, 2019 8:17 am

Dann wäre doch eigentlich als Erstes das Einlesen der Daten dran, oder etwa nicht? :?

Gruß, Jörg
TT-TSV hat geschrieben:
Di Sep 17, 2019 11:40 pm
Ok, also ich habe in Excel eine große fertige Häufigkeitentabelle. Aus dieser Häufigkeitentabelle möchte ich den Datensatz erstellen. Tut mir Leid, wenn ich es nicht besser erklären kann. An sich ist die Idee dahinter ziemlich simpel. Ich möchte den erstellten Datensatz in R analysieren und nicht in Excel.

Athomas
Beiträge: 248
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Großer Datensatz

Beitrag von Athomas » Mi Sep 18, 2019 8:21 am

Ok, also ich habe in Excel eine große fertige Häufigkeitentabelle.
Ich habe Schwierigkeiten zu glauben, dass Excel der "wahre" Ursprung dieser ausladenden Datei ist - oder jemand so umfangreiches Datenmaterial als Excel-Datei weitergibt!?

TT-TSV
Beiträge: 5
Registriert: Di Sep 17, 2019 7:23 pm

Re: Großer Datensatz

Beitrag von TT-TSV » Mi Sep 18, 2019 2:12 pm

Hallo,

das Problem hat sich für mich schon erledigt. Ich habe das leider nur so weitergeschickt bekommen mit dem Wunsch, daraus was "auszuwerten". Aber wie gesagt, das ganze hat sich eh erledigt. Danke für die schnellen Antworten.

Antworten