Seite 1 von 1

Umgang mit zwei Datensätzen & Ablauf

Verfasst: Do Aug 08, 2019 7:23 pm
von jms
Hallo zusammen,

vielleicht kann mir jemand von Euch helfen? Ich bin Anfägerin (sowohl was R, als auch was Foren angeht.. ) und merke, dass es mir gerade schon am Wissen zu einfachen Workflows fehlt.

Hier ist mein konkretes Beispiel: Ich habe Variablen von Paaren erhoben, die nun in zwei unterschiedlichen Datensätzen gespeichert sind.
Es gibt eine ID, über die ich die passenden Daten zuordnen kann.

Nun Frage I : Was ist klüger, um später mit den Daten zu arbeiten? Die Daten als einzelne Datensätze behalten oder zu in einen Datensatz verbinden? (besonders, wenn ich später z.b. Korelationen zwischen Werten der beiden Datensätze berechnen möchte)

Dazu Frage II: Habt Ihr Tipps für Literatur, die meine Wissenslücken abdeckt (R for Data Science von Wikham kenne ich)? Also wie gehe ich bestmöglich mit meinen rohen Daten und deren Aufbereitung um?
  • Beispielsweise habe ich gelesen, dass einige User einen Originaldatensatz speichern, und nur an einer Kopie die Änderungen, wie z.B. hinzufügen von Spalten, arbeiten - ist dieses vorgehen sinnvolll?
  • Anderes Beispiel - ich möchte den Mittelwert zweier Spalten berechnen - mache ich das so, (z.b. über mutate()), dass das innerhalb des vollständigen Datensatzes passiert, oder erstelle ich dafür ein Subset?
  • Drittes Beispiel - wie ist der beste Ablauf, um Rohdaten z.B. von unvollständige Reihen zu bereinigen? Originaldatensatz einlesen, anschließend nur noch mit den relevanten Spalten und Reihen (z.B. über filter()) weiter arbeiten?
Ich hoffe, der Post ist nicht zu lange geworden! Vielen Dank im Voraus für jede und jeden, der oder die mir einen Tipp geben kann - falls ich Fragen noch spezifizieren soll, mache ich das gern!
Liebe Grüße!

Re: Umgang mit zwei Datensätzen & Ablauf

Verfasst: Do Aug 08, 2019 8:46 pm
von jogo
Hallo jms,

willkommen im Forum!
jms hat geschrieben: Do Aug 08, 2019 7:23 pm Hier ist mein konkretes Beispiel: Ich habe Variablen von Paaren erhoben, die nun in zwei unterschiedlichen Datensätzen gespeichert sind.
Es gibt eine ID, über die ich die passenden Daten zuordnen kann.

Nun Frage I : Was ist klüger, um später mit den Daten zu arbeiten? Die Daten als einzelne Datensätze behalten oder zu in einen Datensatz verbinden? (besonders, wenn ich später z.b. Korelationen zwischen Werten der beiden Datensätze berechnen möchte)
Es hängt davon ab, welche Auswertungen man machen möchte. Für manche Arten der Auswertung ist das eine Vorgehen günstig, für andere das andere.
Dazu Frage II: Habt Ihr Tipps für Literatur, die meine Wissenslücken abdeckt (R for Data Science von Wikham kenne ich)? Also wie gehe ich bestmöglich mit meinen rohen Daten und deren Aufbereitung um?
Erst jüngst gab es diese Frage hier:
viewtopic.php?f=22&t=1723
  • Beispielsweise habe ich gelesen, dass einige User einen Originaldatensatz speichern, und nur an einer Kopie die Änderungen, wie z.B. hinzufügen von Spalten, arbeiten - ist dieses vorgehen sinnvolll?
Manchmal ergibt sich das von selbst, z.B. wenn die Daten als Textdateien eingelesen werden:
diese bleiben dann unverändert, in R arbeitet man (falls man Zwischenergebnisse konservieren möchte) mit anderen Dateiformaten. Und auch die Ergebnisse wird man nicht in die Dateien der Ausgangsdaten schreiben, sondern ggf. in andere Dateien schreiben, die dann aber auch die ursprünglichen Daten enthalten können.
  • Anderes Beispiel - ich möchte den Mittelwert zweier Spalten berechnen - mache ich das so, (z.b. über mutate()), dass das innerhalb des vollständigen Datensatzes passiert, oder erstelle ich dafür ein Subset?
Das lässt sich am besten diskutieren, wenn Du uns ein konkretes Beispiel mit Daten zeigst: viewtopic.php?f=20&t=11
... üblicherweise ja - man lässt zusammengehörige Daten in einem Dataframe und erzeugt neue Spalten.
  • Drittes Beispiel - wie ist der beste Ablauf, um Rohdaten z.B. von unvollständige Reihen zu bereinigen? Originaldatensatz einlesen, anschließend nur noch mit den relevanten Spalten und Reihen (z.B. über filter()) weiter arbeiten?
R kann auch gut umgehen mit NA-Werten (not available). Auch diese Frage lässt sich nur anhand der konkreten Auswertung beantworten.
Ich hoffe, der Post ist nicht zu lange geworden! Vielen Dank im Voraus für jede und jeden, der oder die mir einen Tipp geben kann - falls ich Fragen noch spezifizieren soll, mache ich das gern!
Wie Du schon vorher lesen konntest, ist ein reproduzierbares Beispiel die beste Grundlage, um Deine Fragen zu beantworten:
https://stackoverflow.com/questions/596 ... le-example

Gruß, Jörg

Re: Umgang mit zwei Datensätzen & Ablauf

Verfasst: Do Aug 08, 2019 9:04 pm
von jms
Hallo Jörg,

vielen Dank für die schnelle Antwort und die Tipps!
Es hängt davon ab, welche Auswertungen man machen möchte. Für manche Arten der Auswertung ist das eine Vorgehen günstig, für andere das andere.
Ich dachte, dass es hier vielleicht Grundsätze, Stile, oder typische Workflows gibt, an denen ich mich orientieren könnte.

Aber ja, dann werde ich versuchen, mit einem reproduzierbaren Beispiel zurück zu kommen. :)

Vielen Dank,
jms