...und wegen meiner Vermutungen in Bezug auf die Performance von duckdb muss ich Abbitte leisten : das scheint ja eine echte Rakete zu sein! Man sollte sich halt zu nichts äußern, von dem man keine Ahnung hat ...
Endgültig angefixt hat mich dieser Artikel: https://duckdb.org/2021/12/03/duck-arrow.html
Import von csv Dateien in duckdb und R
Re: Import von csv Dateien in duckdb und R
Du hast aber schon mitbekommen, dass das arrow package sich syntaxmäßig an dplyr anlehnt ?
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Import von csv Dateien in duckdb und R
Angefixt ist gut, aber vor dem Produktiveinsatz muss man noch warnen: DuckDB ist noch nicht in Version 1.0. Solange behalten die Entwickler sich vor, möglicherweise das Dateiformat noch zu ändern und versprechen keine backwards compatibility. Keine Ahnung, wie realistisch das Bedrohungsszenario ist, aber für ein längerfristiges Projekt käme duckdb damit für mich noch nicht infrage.
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Import von csv Dateien in duckdb und R
Ich habe zu dem Thema einen recht interessanten Artikel gefunden: https://bwlewis.github.io/duckdb_and_r/taxi/taxi.html
Der Autor verwendet unter anderem einen Ansatz mit data.table und fst und bezeichnet das, was ich noch etwas schwammig als "einfache Probleme" bezeichnet habe, als "map/reduce style":
Der Autor verwendet unter anderem einen Ansatz mit data.table und fst und bezeichnet das, was ich noch etwas schwammig als "einfache Probleme" bezeichnet habe, als "map/reduce style":
@Aaron: wenn Du den Artikel (noch) nicht verstehst, lass Dich davon nicht kirre machen! Der Verfasser hat eine ganze Menge zu "DuckDB and R" gemacht und bringt auch einige Beispiele: https://bwlewis.github.io/duckdb_and_r/This approach leverages the fact that the query is easily decomposed into independent sub-problems (a so-called “map” step), whose solutions can then be combined through a function into the final result (the “reduce” step).