Händische Datenerfassung! Womit?
Verfasst: Do Mär 07, 2019 3:45 pm
Hallo Leute.
Ich arbeite immer mal wieder mit Doktoranden oder Wissenschaftlern, die eine gute Idee verfolgen und von mir Hilfe in R bekommen. Vorher müssen die Daten aber meist von Papier abgetippt werden. Wie bzw. mit welcher Software macht Ihr das? In R selbst kenne ich keine Lösung und am Ende ist es bei mir immer Excel. Das ist irgendwie auf jedem Rechner drauf und niemand ist so illiterat mit Computern, dass er sich die Eingabe in Excel nicht zutraut. Schließlich kann Excel in CSV exportieren und dann schnell mit den Daten in R, wo nichts undokumentiertes mehr mit ihnen passieren kann . . . . denke ich vorher immer. Nachher sitze ich dann die meiste Zeit daran, die Daten einlesbar zu machen und ärgere mich, wenn später noch neue Daten dazu kommen und das von vorne losgeht.
Leider verlockt Excel an tausend und einer Stelle die Leute dazu, irgendwas zu machen, was sich in Excel gut anführt, in CSV aber nicht vernünftig abbilden lässt. Da werden die ersten drei Reihen und vier Spalten leer gelassen, dann werden Über-Überschriften in verbundenen Zellen platziert, dann werden in den Zellen "unter der Tabelle" Zwischenergebnisse berechnet oder zwei Tabellen "untereinander" auf einer Seite angeordnet, dann Zahlen mit Dezimalkomma und Zahlen mit Dezimalpunkt in einer Spalte vermischt. Gestern Abend habe ich eine gute Viertel Stunde gebraucht bis ich die eine einzige Stelle gefunden habe, wo es ein Komma anstelle des sonst überall verwendeten Punkts war und ähnlich lang für einen Wert "-031" der eigentlich ein "-0.31" hätte sein sollen, von R aber als "-31" eingelesen wurde. Und wenn man dann in Excel nachschauen will, wo das Problem liegt, wird irgendwo ungefragt wieder ein 1.1 automatisch in einen ersten Dezember umgewandelt. Ganz zu schweigen von Spaltenüberschriften voller Leerzeichen, Klammern und Bindestriche.
Ich rede, wohlgemerkt, nicht von Ergebnissen, die in Excel gewonnen wurden, sondern von Daten, die explizit zur Verarbeitung in R reingehackt wurden. Eine zukünftige Kooperationspartnerin fragte kürzlich "Und wer erstellt die Eingabemasken?". Die Antwort "wir benutzen Excel" hat mich selbst nicht befriedigt.
Ich habe mir auch schon oft überlegt, ob ich mal einen ganz ausführlichen Text oder vielleicht sogar ein Youtube-Video mache, in dem ich kleinteilig beschreibe, wie man bitte Daten für R in Excel eintippt. Viel Arbeit und keine Lösung an der Wurzel des Problems.
Nun habe ich mal gehört, dass es so etwas wie CSV-Editoren geben soll, also GUI-Programme extra zum Bearbeiten von CSVs. Und die Kooperationspartnerin benutzt ja offensichtlich Programme, die Eingabemasken anbieten. Nun habe ich keine Ahnung, was da gut sein könnte oder wie ich was Gutes dafür finde und deshalb frage ich jetzt Euch. Wie macht Ihr das und womit löst man das Problem der Dateneingabe so, dass Nicht-R'ler damit gut klar kommen, was ein read.table-kompatibles Format forciert, im Bonusfall eine einfache Eingabeprüfung erlaubt und möglichst freie Software ist? (Am besten noch ohne Installation lauffähig, damit das auch auf den Dienstrechnern geht.)
Viele Grüße,
Bernhard
Ich arbeite immer mal wieder mit Doktoranden oder Wissenschaftlern, die eine gute Idee verfolgen und von mir Hilfe in R bekommen. Vorher müssen die Daten aber meist von Papier abgetippt werden. Wie bzw. mit welcher Software macht Ihr das? In R selbst kenne ich keine Lösung und am Ende ist es bei mir immer Excel. Das ist irgendwie auf jedem Rechner drauf und niemand ist so illiterat mit Computern, dass er sich die Eingabe in Excel nicht zutraut. Schließlich kann Excel in CSV exportieren und dann schnell mit den Daten in R, wo nichts undokumentiertes mehr mit ihnen passieren kann . . . . denke ich vorher immer. Nachher sitze ich dann die meiste Zeit daran, die Daten einlesbar zu machen und ärgere mich, wenn später noch neue Daten dazu kommen und das von vorne losgeht.
Leider verlockt Excel an tausend und einer Stelle die Leute dazu, irgendwas zu machen, was sich in Excel gut anführt, in CSV aber nicht vernünftig abbilden lässt. Da werden die ersten drei Reihen und vier Spalten leer gelassen, dann werden Über-Überschriften in verbundenen Zellen platziert, dann werden in den Zellen "unter der Tabelle" Zwischenergebnisse berechnet oder zwei Tabellen "untereinander" auf einer Seite angeordnet, dann Zahlen mit Dezimalkomma und Zahlen mit Dezimalpunkt in einer Spalte vermischt. Gestern Abend habe ich eine gute Viertel Stunde gebraucht bis ich die eine einzige Stelle gefunden habe, wo es ein Komma anstelle des sonst überall verwendeten Punkts war und ähnlich lang für einen Wert "-031" der eigentlich ein "-0.31" hätte sein sollen, von R aber als "-31" eingelesen wurde. Und wenn man dann in Excel nachschauen will, wo das Problem liegt, wird irgendwo ungefragt wieder ein 1.1 automatisch in einen ersten Dezember umgewandelt. Ganz zu schweigen von Spaltenüberschriften voller Leerzeichen, Klammern und Bindestriche.
Ich rede, wohlgemerkt, nicht von Ergebnissen, die in Excel gewonnen wurden, sondern von Daten, die explizit zur Verarbeitung in R reingehackt wurden. Eine zukünftige Kooperationspartnerin fragte kürzlich "Und wer erstellt die Eingabemasken?". Die Antwort "wir benutzen Excel" hat mich selbst nicht befriedigt.
Ich habe mir auch schon oft überlegt, ob ich mal einen ganz ausführlichen Text oder vielleicht sogar ein Youtube-Video mache, in dem ich kleinteilig beschreibe, wie man bitte Daten für R in Excel eintippt. Viel Arbeit und keine Lösung an der Wurzel des Problems.
Nun habe ich mal gehört, dass es so etwas wie CSV-Editoren geben soll, also GUI-Programme extra zum Bearbeiten von CSVs. Und die Kooperationspartnerin benutzt ja offensichtlich Programme, die Eingabemasken anbieten. Nun habe ich keine Ahnung, was da gut sein könnte oder wie ich was Gutes dafür finde und deshalb frage ich jetzt Euch. Wie macht Ihr das und womit löst man das Problem der Dateneingabe so, dass Nicht-R'ler damit gut klar kommen, was ein read.table-kompatibles Format forciert, im Bonusfall eine einfache Eingabeprüfung erlaubt und möglichst freie Software ist? (Am besten noch ohne Installation lauffähig, damit das auch auf den Dienstrechnern geht.)
Viele Grüße,
Bernhard