Athomas hat geschrieben: ↑Fr Nov 27, 2020 3:09 pm
Ein "merge" ist symmetrisch, d.h. Du bekommst auch Sätze mit, die in der jeweils anderen Datei keinen Partner haben. Willst Du das?
Die Komplexität der entstehenden Datei lässt sich nicht a priori abschätzen, im Extremfall (alle IDs gleich) hätte man ca. 100 Milliarden Sätze - dann dürfte R auch in die Knie gehen ...
Hi Athomas,
Das sieht gut aus. Ich habe viel ersetzt, blicke aber noch nicht ganz durch (Ist jetzt meine 3. Woche mit R). Er wirft bei mir folgende Fehlermeldung: "Fehler in sample(un_dt_ABC, Anzahl_ABC, replace = TRUE) :
konnte Funktion "sample" nicht finden"
Ich habe ABC und sample durch den echten Namen ersetzt...
Vielen Dank im vorraus!
Juniper
Ich habe ABC und sample durch den echten Namen ersetzt...
"sample" ist eine ("eingebaute") Funktion des base-Packages, da gibt es nichts zu ersetzen!
Ich habe damit lediglich Spieldaten erzeugt, um den anschließenden Ablauf darstellen zu können...
So wie ich das sehe, brauchst Du keine Spieldaten, wenn Du echte hast!?
Wenn Du was nicht verstehst, kannst Du gerne fragen - dafür sind wir hier, und wir lachen auch nicht !
Nur mit der Funktion driss <- ... bekomme ich folgende Fehlermeldung: Fehler: kann Vektor der Größe 1.1 GB nicht allozieren. Der Datensatz bleibt leider zu groß. Oder habe ich was wichtiges vergessen?
Es grüßt euch herzlich
Juniper
... bekomme ich folgende Fehlermeldung: Fehler: kann Vektor der Größe 1.1 GB nicht allozieren.
Was dabei rauskommt, ist von der tatsächlichen Verteilung der IDs in den Dateien abhängig - ich hatte ein gleichmäßiges Auftreten innerhalb des bekannten Spektums unterstellt, dann gehts! Wenn sich die IDs irgendwo knubbeln, kann es im Extremfall bis zu den 133 Millarden Datensätzen gehen - bei denen auch keine Speicheraufrüstung helfen würde !
Da Du die Daten nicht weitergeben darfst, noch ein Vorschlag - zeig bitte die IDs (oder, wenn die auch geheim sind, eine Umcodierung davon), und ich stricke ein Beispiel um dieses Gerüst herum.
Hi Athomas,
Es ist super lieb von dir, dass du dir soviel Mühe gibst! Dass weiß ich echt zu schätzen! Es ist folgendes: In den nächsten Monaten werdee ich immer wieder Tabellen dieser Größe verknüpfen, toll wäre also eine allgemeingültige Lösung.
Wäre es denn möglich, innerhalb der Tabelle zu sortieren nahc der ID und dann die Tabelle in 10 Teile teilen, aber nur an bestimmten Stellen? Also nicht in 10 Teile, die gleich groß sind, sondern dass ich beispielsweise bei ID 50 teile, und dann bei 100,...? Wenn ich in der anderen Tabelle bei den gleichen IDs trenne, habe ich mehrere kleine Tabellen, die müsste ich ja dann problemlos zusammenfügen können, oder?!
HG
Juniper