Hallo!
Hufeisen hat geschrieben: ↑Mo Okt 07, 2019 11:34 amWenn Du und andere von der Aggressivität der tidyverse-Vertreter, tidy-Extremen oder ihrer Arroganz sprechen, handelt es sich um ein Strohmann-Argument.
Du hast Recht, dass die Argumentation da eine Lücke hat und deshalb hast du in die Diskussion ein wichtiges Argument eingebracht. Deine Behauptung, Du könntest weniger beitragen als andere, ist damit schon entwertet.
Nun ist es schwer, diese Argumentation quantitativ zu belegen. Das bleibt immer kasuistisch. Ich beispielsweise habe heute, angeregt durch einen Thread auf statistik-forum.de, nach Möglichkeiten gegoogled, Tabellen in R schön darzustellen. Mein erster Treffer führt auf einen Blogpost "Create stylish tables in R using formattable" unter https://www.littlemissdata.com/blog/prettytables
Was braucht man, um zu zeigen, dass das Paket prettytables schöne Tabellen macht? Eine Tabelle in R und das vorzustellende Paket. Was verwendet der Blogautor? Im ersten Codeblock die Funktion fread aus data.table und im zweiten Codeblock Pipes und tidyverse-Funktionen! Warum? Das Einbinden von data.table dauert bestimmt längere Zeit als die Funktion fread beim Einlesen spart und dieses dplyr-Monster mit dem er die Tabelle aufbaut könnte ich bestimmt verstehen, wenn ich es mir in Ruhe anschauen und dabei ein wenig googlen wollte. Einer der in R mitgelieferten Datensätze hätte es bestimmt auch getan.
Was beweist das? Nichts! Und hundert solcher Beispiele? Immer noch nichts angesichts der Fülle der Blogs über R. Es ist eine gefühlte Wahrheit, dass solchermaßen unnütze Standardverwendung von
dplyr (und hier auch
data.table) zu häufig vorkommen, dass auf StackOverflow Fragen mit
dplyr-Mehrzeilern beantwortet werden, die mit R-Einzeilern zu beantworten sind dass sich Anfragen wie die von jmr in http://forum.r-statistik.de/viewtopic.php?f=7&t=1851 häufen: Ein Anfänger hat ein schlichtes Problem, für das base R eine einfache und schöne Antwort hat. Der Anfänger scheitert beim Versuch, das mit
mutate zu lösen, weil
mutate ihm irgendwie als natürlichere Lösung erscheint. Warum erscheint einem Anfänger, der noch nichtmal
aggregate kennt,
mutate als natürliche Lösung für irgendwas?
Ich konzidiere, dass gefühlte Wahrheiten keine Fakten sind. Gestehst Du mir zu, dass es sehr schwer wäre, hier objektive Fakten zu erheben?
Ich sehe das Problem hier nicht. Wenn ich in R ein Paket lade, wird mir eine Warnmeldung angezeigt, dass folgende Befehle überschrieben werden.
Das habe ich EDi oben schon zugegeben. Ändert aber nichts daran, dass meine Mitarbeiterin und o. g. Carolin dachten, Sie hätten data.frames vor sich und jeweils an Inkompatibilitäten zwischen data.frames und tibbles gescheitert sind. Klar kann man jetzt einfach RTFM sagen, ist schließlich jeder selbst Schuld, wenn er irgendwas anklickt, was er nichts bis ins letzte verstanden hat.
Ich bin Arzt in einer Universitätsklinik. Medizin ist SPSS-Land - die Erkenntnis, das SPSS und Statistik nicht das gleiche sind kennzeichnet hier schon den weit fortgeschrittenen User. Ich versuche, Doktoranden und Mitarbeitern R schmackhaft zu machen, ohne dass ich die Möglichkeit hätte, irgend etwas in einer systematischen Vorlesung schrittweise aufzubauen. Unnötige Fehler die entstehen, weil jemand glaubt, einen Dataframe zu haben, in Wirklichkeit aber einen Dataframe hat, der sich nicht wie einer verhält, helfen bei dieser Mission nicht.
Bei data.table schreibt man halt irgendwann
as.data.table oder
setDT. Bei tibbles verwendet man irgend ein import-Menü in RStudio oder verwendet eine dplyr-Funktion bei der einem vielleicht gar nicht bewusst ist, dass sie tibbles zurück gibt. Auch wenn RTFM da nicht immer fehl am Platze ist, stört mich das bei meinem Versuch, Leuten klar zu machen, dass R ihnen kostenlos, verlässlich und reproduzierbar Ergebnisse gibt, die nicht schlechter als SPSS-Ergebnisse sind.
bigben hat geschrieben: ↑Mo Okt 07, 2019 9:45 amWie gut vertragen sich Deiner Meinung nach folgende Zitate aus diesem Thread?
Bestens, ich sehe da kein Problem. Der Rat, beim Verlassen des tidyverse die Datenstruktur zu konvertieren, ist notwendig, weil man eben erst rein und dann wieder raus geht.
Es ging ja hier um den Anfänger. Wenn der Anfänger sich ohnehin im reinen base und stats und graphics-R auskennen muss, warum dann Komplexität erhöhen durch zusätzliche Formen der Datenhaltung? Die Vorteile greifen später, anfangs dominiert die unnötige zusätzliche Komplexität.
LG,
Bernhard