Import von csv Dateien in duckdb und R

... zu anderer statistischer Software, zu Datenbanken und Programmiersprachen.

Moderatoren: EDi, jogo

Athomas
Beiträge: 769
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Import von csv Dateien in duckdb und R

Beitrag von Athomas »

...und wegen meiner Vermutungen in Bezug auf die Performance von duckdb muss ich Abbitte leisten : das scheint ja eine echte Rakete zu sein! Man sollte sich halt zu nichts äußern, von dem man keine Ahnung hat :roll:...

Endgültig angefixt hat mich dieser Artikel: https://duckdb.org/2021/12/03/duck-arrow.html
bigben
Beiträge: 2781
Registriert: Mi Okt 12, 2016 9:09 am

Re: Import von csv Dateien in duckdb und R

Beitrag von bigben »

Du hast aber schon mitbekommen, dass das arrow package sich syntaxmäßig an dplyr anlehnt ? :lol:
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
bigben
Beiträge: 2781
Registriert: Mi Okt 12, 2016 9:09 am

Re: Import von csv Dateien in duckdb und R

Beitrag von bigben »

Athomas hat geschrieben: Fr Nov 10, 2023 2:49 pmEndgültig angefixt hat mich dieser Artikel
Angefixt ist gut, aber vor dem Produktiveinsatz muss man noch warnen: DuckDB ist noch nicht in Version 1.0. Solange behalten die Entwickler sich vor, möglicherweise das Dateiformat noch zu ändern und versprechen keine backwards compatibility. Keine Ahnung, wie realistisch das Bedrohungsszenario ist, aber für ein längerfristiges Projekt käme duckdb damit für mich noch nicht infrage.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Athomas
Beiträge: 769
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Import von csv Dateien in duckdb und R

Beitrag von Athomas »

Ich habe zu dem Thema einen recht interessanten Artikel gefunden: https://bwlewis.github.io/duckdb_and_r/taxi/taxi.html

Der Autor verwendet unter anderem einen Ansatz mit data.table und fst und bezeichnet das, was ich noch etwas schwammig als "einfache Probleme" bezeichnet habe, als "map/reduce style":
This approach leverages the fact that the query is easily decomposed into independent sub-problems (a so-called “map” step), whose solutions can then be combined through a function into the final result (the “reduce” step).
@Aaron: wenn Du den Artikel (noch) nicht verstehst, lass Dich davon nicht kirre machen! Der Verfasser hat eine ganze Menge zu "DuckDB and R" gemacht und bringt auch einige Beispiele: https://bwlewis.github.io/duckdb_and_r/
Antworten