Beschleunigtes Arbeiten mit großen Datensätzen

Wie rufe ich R-Funktionen auf, wie selektiere ich Daten, ich weiß nicht genau ....

Moderatoren: EDi, jogo

Antworten
Bugs
Beiträge: 10
Registriert: Sa Sep 26, 2020 11:41 am

Beschleunigtes Arbeiten mit großen Datensätzen

Beitrag von Bugs »

Hallo,

ich habe einen Datensatz mit ca. 50mio Zeilen, auf den ich einige Befehle anwenden möchte.
Manche Befehle werden auch sofort ausgeführt, für andere dauert die Ausführung sehr lange (teils 10-20 Minuten). Ich nehme an, dass dies an der enormen Größe des Datensatzes liegt.

Gibt es eine Möglichkeit die Ausführung von Befehlen irgendwie zu beschleunigen?

Danke im Voraus :)
Athomas
Beiträge: 776
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Beitrag von Athomas »

Gibt es eine Möglichkeit die Ausführung von Befehlen irgendwie zu beschleunigen?
Aha - ich nehme an, Du solltest andere Befehle nehmen :roll: !?
Benutzeravatar
EDi
Beiträge: 1605
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Beitrag von EDi »

Gibt es eine Möglichkeit die Ausführung von Befehlen irgendwie zu beschleunigen?
Klar, aber ohne zu wissen, was du bechnest, wird es schwer Hinweise zu geben.

Was möglich wäre

* Hardware
* data.table nutzen
* parallelisieren
* Rcpp
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Bugs
Beiträge: 10
Registriert: Sa Sep 26, 2020 11:41 am

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Beitrag von Bugs »

Klar, aber ohne zu wissen, was du bechnest, wird es schwer Hinweise zu geben.
Schwer das zusammenzufassen. Es sind circa 30-40 Befehle, die ich auf den Datensatz anwenden möchte.

- Teilweise füge ich neue Spalten hinzu mit mutate()
- Oft enthalten diese Spalten die Zeitdifferenz zweier anderer Spalten, ermittelt durch difftime()
- Teilweise lösche ich Zeilen aus dem Datensatz, die eine gewisse Bedingung erfüllen/nicht erfüllen
...

Insgesamt arbeite ich viel mit verschachtelten ifelse()

Wie gesagt, alles in allem ist das recht schwer zusammenzufassen :roll:
jogo
Beiträge: 2093
Registriert: Fr Okt 07, 2016 8:25 am

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Beitrag von jogo »

ifelse() ist langsam.

Bitte zeige doch mal Deinen Code, damit die Hilfe konkreter werden kann.

Gruß, Jörg
Athomas
Beiträge: 776
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Beitrag von Athomas »

Bitte zeige doch mal Deinen Code, damit die Hilfe konkreter werden kann.
Und einen Ausschnitt Deiner Daten, damit man diesen Code laufen lassen und die Wirkung von Tuningmaßnahmen quantifizieren kann.
Und eine grundsätzliche Beschreibung dessen, was Du erreichen willst - um beurteilen zu können, ob Dein Ansatz zweckmäßig ist...
Benutzeravatar
EDi
Beiträge: 1605
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Beschleunigtes Arbeiten mit großen Datensätzen

Beitrag von EDi »

mutate()
dplyr ist gut und schnell was die Programmiergeschwindigkeit anbelangt. Auf großen Datensätzen & wenn es auf die Ausführungsgschwindigkeit ankommt ist es wesentlich lahmer als data.table.

Bitte ein reproduzierbares Beispiel posten, sonst kommen wir hier nicht weiter .
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten