Seite 3 von 3

Re: Import von csv Dateien in duckdb und R

Verfasst: Fr Nov 10, 2023 2:49 pm
von Athomas
...und wegen meiner Vermutungen in Bezug auf die Performance von duckdb muss ich Abbitte leisten : das scheint ja eine echte Rakete zu sein! Man sollte sich halt zu nichts äußern, von dem man keine Ahnung hat :roll:...

Endgültig angefixt hat mich dieser Artikel: https://duckdb.org/2021/12/03/duck-arrow.html

Re: Import von csv Dateien in duckdb und R

Verfasst: Fr Nov 10, 2023 6:24 pm
von bigben
Du hast aber schon mitbekommen, dass das arrow package sich syntaxmäßig an dplyr anlehnt ? :lol:

Re: Import von csv Dateien in duckdb und R

Verfasst: Sa Nov 11, 2023 10:34 pm
von bigben
Athomas hat geschrieben: Fr Nov 10, 2023 2:49 pmEndgültig angefixt hat mich dieser Artikel
Angefixt ist gut, aber vor dem Produktiveinsatz muss man noch warnen: DuckDB ist noch nicht in Version 1.0. Solange behalten die Entwickler sich vor, möglicherweise das Dateiformat noch zu ändern und versprechen keine backwards compatibility. Keine Ahnung, wie realistisch das Bedrohungsszenario ist, aber für ein längerfristiges Projekt käme duckdb damit für mich noch nicht infrage.

LG,
Bernhard

Re: Import von csv Dateien in duckdb und R

Verfasst: So Nov 12, 2023 1:07 pm
von Athomas
Ich habe zu dem Thema einen recht interessanten Artikel gefunden: https://bwlewis.github.io/duckdb_and_r/taxi/taxi.html

Der Autor verwendet unter anderem einen Ansatz mit data.table und fst und bezeichnet das, was ich noch etwas schwammig als "einfache Probleme" bezeichnet habe, als "map/reduce style":
This approach leverages the fact that the query is easily decomposed into independent sub-problems (a so-called “map” step), whose solutions can then be combined through a function into the final result (the “reduce” step).
@Aaron: wenn Du den Artikel (noch) nicht verstehst, lass Dich davon nicht kirre machen! Der Verfasser hat eine ganze Menge zu "DuckDB and R" gemacht und bringt auch einige Beispiele: https://bwlewis.github.io/duckdb_and_r/