Re: Großen Datensatz mit vielen Variablen(Spalten) selbst erstellen
Verfasst: Mo Sep 30, 2019 10:19 pm
Neben speedglm gibt es dann noch fastglm und ganz bestimmt findet man noch mehr hacks. Dann müsste man für so einen Vergleich auch noch schauen, ob die Rechenpräzision und der Umgang mit missings gleich gut ist und ob einer der Competitoren zwischendurch mehr Speicher alloziert als der andere und ob man die Rechnung in einer von beiden Sprachen leichter parallelisieren kann. Kurzum: Kein einfacher Job, den Du da hast und Du solltest aufpassen, dass Du Deine Ergebnisse nicht überinterpretierst.
A propos Ergebnisse: Das hier kennst Du? https://github.com/matthieugomez/benchmark-stata-r
Wenn es war sein sollte, dass R schwerer zu erlernen ist als Stata, dann fände ich das bedeutend gewichtiger als dreifache Geschwindigkeit bei der logistischen Regression. Dann wiederum kann man mit den LIzenzkosten jeden Mitarbeiter mehrere Stunden etwas lernen lassen. Wenn nur eines der beiden Programme den Konkurrenzkampf überlebt, dann geht eher StataCorp pleite als dass hunderte begeisterter Universitätsangehörige aufhören, ihr Hobby zu pflegen.
LG,
Bernhard
A propos Ergebnisse: Das hier kennst Du? https://github.com/matthieugomez/benchmark-stata-r
Wenn es war sein sollte, dass R schwerer zu erlernen ist als Stata, dann fände ich das bedeutend gewichtiger als dreifache Geschwindigkeit bei der logistischen Regression. Dann wiederum kann man mit den LIzenzkosten jeden Mitarbeiter mehrere Stunden etwas lernen lassen. Wenn nur eines der beiden Programme den Konkurrenzkampf überlebt, dann geht eher StataCorp pleite als dass hunderte begeisterter Universitätsangehörige aufhören, ihr Hobby zu pflegen.
In meiner Vorlage werden die Spalten mit fortlaufenden Zahlen gefüllt. Das lässt sich mühelos abwandeln und mit Zufallszahlen befüllen, aber das dauert dann etwas länger. Gute Zufallszahlen bekommt man nicht so ganz schnell:danke das werde ich mal ausprobieren. Muss ich nur mal schauen, wie ich die Spalten dann geeignet befülle!
Code: Alles auswählen
large_random <- function(n, m){
as.data.frame(matrix(rnorm(n*m), ncol=m))
}
a <- large_random(1000, 100000)
dim(a)
Bernhard