Vor sich gar nicht so lang anfühlender Zeit gab es mal einen öffentlichen Streit darüber, ob nun die tidy-Welt von Hadley Wickham mit seinem tidyR und dplyr etc die schnellere Lösung fürs Aggregieren, Filtern etc. von großen Datensätzen sei, oder data.table. Da mir ja eh niemand große Datensätze in die Hände gibt, habe ich das nicht weiter verfolgt.
Jetzt habe ich angefangen, in das neue Buch von Hadley Wickham hineinzuschnuppern, und stolpere über folgenden Satz im Kapitel 1.3.1 "Big data":
( http://r4ds.had.co.nz/introduction.html )If you’re routinely working with larger data (10-100 Gb, say), you should learn more about data.table. This book doesn’t teach data.table because it has a very concise interface which makes it harder to learn since it offers fewer linguistic cues. But if you’re working with large data, the performance payoff is worth the extra effort required to learn it.
Der Seitenhieb bezüglich des Interfaces musste wohl sein, aber sonst lese ich das als Eingeständnis, dass data.table in Sachen Performanz gewonnen hat. Sehe ich das richtig? Ist das richtig?
LG,
Bernhard