So, da bin ich nochmal.
Claire hat geschrieben: Mi Nov 25, 2020 12:25 amDen Datensatz habe ich jetzt in eine CSV Datei umgewandelt und importiert.
Eine von mehreren Möglichkeiten ist es, die Daten wie folgt einzulesen:
Code: Alles auswählen
Social_Media <- read.csv2("http://forum.r-statistik.de/download/file.php?id=1211",
stringsAsFactors = TRUE)
Über das stringsAsFactors wird es im Forum divergierende Meinungen geben, ich mach das jetzt mal so.
Es ist auch ganz seltsam, weil R mir zum Teil Punkte hinter den Unterstrichen anzeigt, die in der CSV Datei gar nicht zu sehen sind z.B in der Spaltenüberschrift "post_pro_woche"... Hat das einen Einfluss auch die Arbeit mit der Datei?
Das macht R normalerweise, wenn in Spaltennamen Leerzeichen vorkommen oder Sonderzeichen, die als Spaltenüberschrift nicht passen. Für die weitere Arbeit bedeutet das, dass Du mit Spaltennamen mit Punkten drin arbeiten oder Spalten umbenennen musst.
Wie die Spalten jetzt heißen zeigt Dir
Die Nullen in den ersten Spalten wie z.B in der Spalte "stories pro woche " habe ich gelassen, da ich leider nicht weiß wie ich es anders darstellen soll.
Das habe ich jetzt noch nicht verstanden.
Bezüglich der Hypothesenprüfung bzw. der Darstellung eines Zusammenhangs zwischen den Werten der Follower und den damit verbundenen ( steigenen oder sinkenen) Werten (beginnt bei follower_donnerstag_05.11.2020 bis follower_donnerstag_19.11.2020) und den an dem Tag geposteten Fotos oder Stories verliere ich wirklich den Verstand.
Hast Du diese Aufgabenstellung schon beschrieben? Mir ist nicht klar, was da wie ausgewertet werden soll. Bitte erklär das nochmal verständlich.
Ich habe mir die Pearson-Korrelation, Punkt-biserielle Korrelation und Spearman-Korrelation angeschaut und habe leider keine Ahnung wie ich hier die Befehle verbinden soll bzw. hier auf ein Ergebnis komme.
Ich kenne bisher die Aufgabenstellung zur prüfen, ob Spalte K und BR in einem Zusammenhang stehen. Dafür böte sich die punktbiserielle Korrelation an, die im Wesentlichen eine Pearson-Korrelation ist. Wikipedia beschreibt das so:
https://de.wikipedia.org/wiki/Punktbiseriale_Korrelation hat geschrieben:Als punktbiseriale Korrelation wird der Korrelationskoeffizient für den Zusammenhang zwischen einem intervallskalierten Merkmal und einem dichotomen (bernoulliverteilten) Merkmal D bezeichnet. Es handelt sich nicht um eine eigenständige Maßzahl, sondern um einen Spezialfall des gewöhnlichen Korrelationskoeffizienten nach Pearson,
Berechenbar etwa als
Code: Alles auswählen
cor.test(Social_Media$follower_donnerstag_05.11.2020, as.integer(Social_Media$bild_gepostet.14))
Das führt nominell zu einem p-value = 0.8615, was erstens nicht anders zu erwarten war, da bei bild_gepostet nur ein Ja vorkommt und zweitens als Test ohnehin kritisch ist, da es in follower_donnerstag_05.11.2020 einen riesigen Ausreißer gibt. Alternativ bei Ausreißern interessant kommt die Spearman-Korrelation infrage:
Code: Alles auswählen
cor.test(Social_Media$follower_donnerstag_05.11.2020, as.integer(Social_Media$bild_gepostet.14),
method = "spearman")
Es sind ja 14 Werte + die beiden jeweiligen Einflüsse die beachtet werden müssen.
Das ist dann aber eine andere Aufgabe. Wahrscheinlich die von oben, die Du nochmal richtig ausformulieren musst.
Ich hatte mir vor ein paar Wochen auch Bücher zu dem Thema bestellt, aber ich finde ich auch in den Büchern nichts dazu...
Sowohl das Einlesen von Daten als auch die Korrelation als auch Grafiken in R sind in verschiedenen Büchern gut beschrieben. Bücher und Forum ergänzen sich: Bücher geben einem den Überblick und das Hintergrundwissen, das Forum hilft, wenn es trotzdem mal an einer individuellen Stelle hakt.
Noch kurz zu der Grafik mit den stories_pro_woche --- das wird von R erstmal als nominelle Variable eingelesen und um daraus eine ordinale Variable zu machen müssen wir R sagen, in welcher Reihenfolge die levels angeordnet sind. Man kann das beispielsweise machen, indem man eine neue Variable ähnlichen Namens aber eben als ordinalskalierte anlegt:
Code: Alles auswählen
Social_Media$st.p.w <- ordered(Social_Media$stories_pro_woche,
levels = c("0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "> 10"))
# kontrolliere, dass st.p.w eine adäquate Variante von stories_pro_Woche ist:
table(Social_Media$stories_pro_woche)
table(Social_Media$st.p.w)
Dann lassen sich auch sinnvolle Grafiken zeichnen. Mit lattice Grafiken (wird von mosaic benutzt) kenne ich mich nicht aus, daher mal als Beispiel mit ggplot2:
Code: Alles auswählen
library(ggplot2)
ggplot(Social_Media) +
geom_bar(aes(x = st.p.w)) +
facet_grid(Geschlecht ~ .) +
scale_x_discrete(drop=FALSE) +
xlab("Stories pro Woche") +
ylab("Anzahl Accounts")
LG,
Bernhard