ganz freundliche Bitte um Hilfe - Datensatz

Claire · Beitrag von **Claire** » Di Nov 24, 2020 1:12 am

Hallo Ihr Lieben,

Ich habe eine Excel Liste erstellt und möchte damit nun gerne in R Studios arbeiten.Die Liste findet Ihr gerne anbei.

Eigentlich möchte ich gerne untersuchen, ob das Posten eines Bildes oder einer Instagram Story Einfluss auf die Follower hat (Spalten K-BR).

Leider bin ich ein totaler R - Anfänger und kann in dem hochgeladenen Datensatz ( Excel --> R) gerade gar nichts untersuchen. Nicht einmal das Geschlecht oder einzelne Variablen. Ich versuche es schon seit Stunden...

Habe ich etwas in dem Datensatz falsch gemacht? Habt Ihr eine Ahnung woran es liegen kann oder sonst vielleicht Tips?

Ich habe die Excel Datei über Import Data Set --> from Excel ganz normal hochgeladen. Die Datei zeigt sich auch normal an, aber sobald ich einen Befehl eingeben will... funktioniert gar nichts

Irgendwie habe ich das Gefühl, dass ich totalen Mist gemacht habe

Ich würde mich unendlich über Eure Hilfe freuen.

Herzliche Grüße

Claire

Beitrag von **bigben** » Di Nov 24, 2020 8:17 am

Hallo Claire,

da wir nicht wissen, was Du im Detail gemacht hast, können wir Dir auch nicht sagen, was Du eventuell falsch gemacht hast.

Aber vielleicht hilft das hier: Copy-paste das hier mal in Deine Console. Das enthält Deine Daten und ein paar wenige erste Auswertungsschritte. Funktioniert das bei Dir so und hilft Dir das?

Code: Alles auswählen

clairesdaten <-  read.table(header= TRUE, sep = "\t", text="Account	 Geburtsjahr	 Geschlecht	Stunden pro Tag	Anmeldung Jahr	Stories pro Woche 	Posts pro Woche 	likes vergeben pro Tag  	Kommentare vergeben pro Tag 	Einfluss Corona - Kriese	Follower Donnerstag, 05.11.2020	Abonniert  Donnerstag, 05.11.2020	Story gepostet 	Bild gepostet	Follower Freitag, 06.11.2020	Abonniert  Freitag, 06.11.2020	Story gepostet 	Bild gepostet	Follower Samstag, 07.11.2020	Abonniert  Samstag, 07.11.2020	Story gepostet 	Bild gepostet	Follower Sonntag, 08.11.2020	Abonniert  Sonntag, 08.11.2020	Story gepostet 	Bild gepostet	Follower Montag, 09.11.2020	Abonniert, Montag, 09.11.2020	Story gepostet 	Bild gepostet	Follower Dienstag, 10.11.2020	Abonniert Dienstag, 10.11.2020	Story gepostet 	Bild gepostet	Follower Mittwoch, 11.11.2020	Abonniert, Mittwoch, 11.11.2020	Story gepostet 	Bild gepostet	Follower Donnerstag, 12.11.2020	Abonniert, Donnerstag, 12.11.2020	Story gepostet 	Bild gepostet	Follower  Freitag, 13.11.2020	Abonniert Freitag, 13.11.2020	Story gepostet 	Bild gepostet	Follower Samstag, 14.11.2020	Abonniert  Samstag  14.11.2020	Story gepostet 	Bild gepostet	Follower Sonntag, 15.11.2020	Abonniert Sonntag, 15.11.2020	Story gepostet 	Bild gepostet	Follower Montag, 16.11.2020	Abonniert Montag 16.11.2020	Story gepostet 	Bild gepostet	Follower Dienstag, 17.11.2020	Abonniert Dienstag, 17.11.2020	Story gepostet 	Bild gepostet	Follower Mittwoch, 18.11.2020	Abonniert Mittwoch, 18.11.2020	Story gepostet 	Bild gepostet	Follower Donnerstag,  19.11.2020	Abonniert, Donnerstag,  19.11.2020	Story gepostet 	Bild gepostet
Account 1	1991	weiblich	< 3 Stunden	2015	4	1	< 30	< 10	Ich bin jetzt aktiver auf Instagram	369	528	1	0	370	528	0	0	369	529	1	0	369	530	0	0	369	531	0	0	369	532	0	0	370	533	1	1	370	534	1	0	371	534	0	0	371	535	1	0	372	537	0	0	372	538	0	0	372	538	0	0	372	538	0	0	371	538	0	0
Account 2	1989	weiblich	< 1/2 Stunde	2015	3	0	< 10	0	Ich bin jetzt aktiver auf Instagram	936	547	0	0	936	547	1	0	936	549	1	0	936	550	1	0	935	550	0	0	935	550	1	0	937	550	1	0	938	550	1	0	937	551	1	0	935	551	1	0	933	552	0	0	933	552	1	0	934	552	1	0	935	552	1	0	936	552	1	0
Account 3	1992	männlich	< 2 Stunden	2014	1	1	< 20	< 10	Ich bin jetzt aktiver auf Instagram	211	214	0	0	211	215	0	0	211	216	0	0	211	216	0	0	211	216	0	0	211	216	0	0	211	216	0	0	211	216	0	0	211	216	0	0	211	216	0	0	211	218	0	0	211	218	0	0	211	218	0	0	212	218	0	0	212	218	0	0
Account 4	1993	weiblich	< 1 Stunde	2017	3	0	< 20	< 10	Ich bin jetzt genervt von Instagram	319	667	0	0	319	666	0	0	319	667	0	1	321	668	0	0	321	668	0	0	321	669	0	0	319	670	1	0	319	672	0	0	319	673	0	0	318	674	1	0	318	675	0	0	319	677	0	0	320	677	0	0	320	676	1	0	319	676	0	0
Account 5	1986	weiblich	< 1 Stunde	2019	6	2	< 40	< 10	Ich bin jetzt genervt von Instagram	187	519	0	0	187	519	0	0	187	519	0	0	187	519	1	0	190	522	0	0	192	522	0	0	191	521	1	0	190	521	1	0	190	522	1	0	190	522	0	0	189	522	0	1	190	522	0	0	190	522	0	0	190	522	1	0	190	522	1	0
Account 6	1982	weiblich	< 1 Stunde	2015	0	0	0	0	Ich bin jetzt genervt von Instagram	113	251	0	0	113	252	0	0	113	255	0	0	113	256	1	0	113	256	0	0	113	256	0	0	114	259	0	0	114	259	0	0	114	259	0	0	114	260	1	0	114	261	0	0	114	261	0	0	114	261	0	0	114	261	0	0	114	261	0	0
Account 7	1985	weiblich	< 2 Stunden	2011	0	0	< 10	0	Ich bin jetzt nicht aktiver auf Instagram	693	1201	0	0	693	1201	0	0	693	1201	0	0	693	1201	0	0	693	1201	0	0	693	1201	0	0	693	1202	0	0	693	1202	0	0	694	1203	0	0	694	1203	0	0	693	1203	1	0	693	1203	0	0	693	1203	0	0	693	1203	0	0	693	1203	0	0
Account 8	1990	weiblich	< 1 Stunde	2014	1	0	< 30	< 10	Ich bin jetzt nicht aktiver auf Instagram	666	654	0	0	666	652	0	0	666	651	0	0	665	651	1	0	665	652	0	0	665	652	0	0	665	652	0	0	665	652	0	0	665	652	0	0	665	652	0	0	665	652	0	0	665	651	0	0	665	653	0	0	665	653	0	0	666	654	1	0
Account 9	1991	weiblich	< 2 Stunden	2015	0	1	< 20	< 10	Ich bin jetzt nicht aktiver auf Instagram	404	910	0	0	403	910	1	0	404	912	0	0	404	914	0	0	404	915	0	0	404	915	0	0	403	916	0	0	404	919	0	0	404	919	0	0	402	920	0	0	402	921	0	0	402	921	0	0	402	925	0	0	402	925	0	0	404	926	0	0
Account 10	1987	weiblich	< 1/2 Stunde	2016	0	0	< 10	0	Ich bin jetzt nicht aktiver auf Instagram	68	74	0	0	68	74	0	0	68	74	0	0	68	74	0	0	68	74	0	0	68	74	0	0	68	74	0	0	68	74	0	0	68	74	0	0	68	75	0	0	68	75	0	0	69	75	0	0	69	75	0	0	69	75	0	0	69	75	0	0
Account 11	1997	weiblich	< 1/2 Stunde	2012	8	1	< 20	< 10	Ich bin jetzt aktiver auf Instagram	1819	504	1	0	1820	506	1	0	1820	506	1	1	1818	506	1	0	1818	504	1	0	1820	506	1	0	1819	505	0	0	1818	505	1	0	1816	503	1	0	1815	503	1	0	1815	503	1	0	1816	506	1	0	1816	507	1	0	1817	508	1	0	1816	508	1	0
Account 12	1966	weiblich	< 1 Stunde	2018	0	0	< 20	0	Ich bin jetzt nicht aktiver auf Instagram	68	142	0	0	68	142	0	0	68	142	0	0	68	142	0	0	68	143	0	0	68	143	0	0	68	143	0	0	68	143	0	0	68	143	0	0	68	143	0	0	68	143	0	0	68	143	0	0	68	143	0	0	68	143	0	0	68	143	0	0
Account 13	1988	weiblich	< 1 Stunde	2019	2	1	< 10	0	Ich bin jetzt genervt von Instagram	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0	387	60	0	0
Account 14	1992	weiblich	< 2 Stunden	2013	5	1	< 40	< 10	Ich bin jetzt nicht aktiver auf Instagram	2962	740	1	0	2962	740	1	0	2965	740	1	0	2965	741	1	1	2956	741	1	1	2954	743	0	0	955	744	1	0	2958	745	1	0	2955	744	1	1	2956	745	0	0	2958	745	1	0	2957	748	0	0	2956	747	0	0	2954	748	0	0	2954	748	0	0
Account 15	1988	weiblich	< 1 Stunde	2013	1	1	< 10	0	Ich bin jetzt nicht aktiver auf Instagram	37	594	0	0	37	594	1	0	37	594	1	0	37	596	0	0	37	596	0	0	37	596	0	1	37	596	0	0	37	597	1	0	37	597	0	1	37	598	0	0	37	598	0	1	36	599	0	0	36	598	0	0	36	598	0	0	36	598	0	0
Account 16	1997	männlich	< 2 Stunden	2013	1	0	< 10	0	Ich bin jetzt aktiver auf Instagram	677	261	0	0	677	261	0	0	677	261	0	0	678	262	0	0	678	262	0	0	678	263	0	0	677	263	0	0	677	263	0	0	677	262	0	0	677	263	0	0	678	264	0	0	677	263	0	0	677	263	0	0	675	262	0	0	675	262	0	0
Account 17	1990	weiblich	< 2 Stunden	2012	4	1	< 50	0	Ich bin jetzt nicht aktiver auf Instagram	546	2327	0	0	545	2327	1	0	546	2328	1	0	543	2328	0	0	543	2328	0	0	543	2326	0	0	543	2328	0	0	543	2328	0	0	543	2327	0	0	542	2324	0	0	541	2324	1	0	539	2325	0	0	540	2326	1	0	540	2328	0	0	541	2329	0	0
Account 18	1991	weiblich	< 1 Stunde	2016	0	0	< 10	0	Ich bin jetzt nicht aktiver auf Instagram	359	413	0	0	359	413	0	0	359	413	0	0	359	413	0	0	360	416	0	0	360	416	0	0	360	418	0	0	360	418	0	0	361	419	0	0	361	419	0	0	361	419	0	0	361	419	0	0	361	419	0	0	361	419	0	0	361	421	0	0
Account 19	1997	weiblich	< 2 Stunden	2017	0	0	< 30	0	Ich bin jetzt nicht aktiver auf Instagram	270	389	0	0	271	389	0	0	271	389	0	0	271	390	0	0	270	390	0	0	271	390	0	0	271	390	0	0	270	388	0	0	270	388	0	0	270	388	0	0	270	389	0	0	271	390	0	0	270	389	0	0	270	389	0	0	269	389	0	0
Account 20	1988	männlich	< 2 Stunden	2017	1	1	< 10	< 10	Ich bin jetzt nicht aktiver auf Instagram	494	675	0	0	493	675	0	0	494	675	0	0	493	676	0	0	492	676	0	0	492	676	0	0	492	677	0	0	492	677	0	0	491	677	0	0	492	677	0	0	491	677	0	0	492	676	0	0	492	677	0	0	493	677	0	0	493	677	0	0
Account 21	1991	männlich	< 2 Stunden	2016	0	0	< 10	< 10	Ich bin jetzt nicht aktiver auf Instagram	290	751	0	0	290	751	0	0	290	751	0	0	289	748	1	0	289	749	0	0	289	749	0	0	290	749	0	0	290	751	1	0	288	752	0	0	288	752	1	0	288	752	1	0	287	751	0	0	288	752	1	0	287	752	0	0	288	755	1	0
Account 22	1989	weiblich	< 3 Stunden	2012	6	0	< 10	< 10	Ich bin jetzt genervt von Instagram	3796	557	1	0	3793	560	0	0	3790	560	1	1	3790	559	0	1	3790	560	1	0	3789	561	1	0	3789	561	0	0	3788	561	1	0	3788	561	0	0	3788	563	1	0	3789	565	1	0	3789	565	1	0	3787	565	0	0	3787	563	1	0	3786	569	1	0
Account 23	1986	weiblich	< 2 Stunden	2014	2	1	< 30	0	Ich bin jetzt genervt von Instagram	300	528	0	0	300	529	1	0	300	528	0	0	301	529	1	0	301	527	1	0	301	527	0	0	301	527	0	0	299	527	1	0	299	527	0	0	299	527	1	0	299	527	1	0	299	528	0	0	299	529	1	0	299	529	1	0	299	527	1	0
Account 24	1991	männlich	< 1 Stunde	2012	0	0	< 10	0	Ich bin jetzt nicht aktiver auf Instagram	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0	273	363	0	0
Account 25	1990	weiblich	< 1 Stunde	2018	1	1	< 10	0	Ich bin jetzt nicht aktiver auf Instagram	109	91	0	0	109	91	0	0	109	91	0	0	109	91	0	0	109	91	0	1	110	91	0	0	110	91	0	0	111	91	0	0	111	91	0	0	111	91	0	0	112	91	0	0	112	92	0	0	112	92	0	0	112	92	0	0	112	92	0	0
Account 26	1988	männlich	< 3 Stunden	2017	10	0	< 10	0	Ich bin jetzt nicht aktiver auf Instagram	782	993	0	0	782	993	0	0	781	991	1	0	782	991	0	0	780	990	1	0	781	990	0	0	781	989	0	0	782	988	1	0	779	990	1	0	781	986	0	0	782	986	1	0	782	986	0	0	781	986	1	0	781	987	1	0	780	988	1	0
Account 27	1999	weiblich	< 1 Stunde	2014	2	0	< 20	0	Ich bin jetzt genervt von Instagram	907	451	0	0	907	451	0	0	907	450	1	0	906	450	1	0	906	449	0	0	907	450	0	0	907	450	0	0	908	450	0	0	904	446	0	0	904	447	0	0	904	447	0	0	903	444	1	0	905	449	0	0	905	452	0	0	905	450	0	0
Account 28	1989	männlich	< 1 Stunde	2013	0	1	< 20	0	Ich bin jetzt nicht aktiver auf Instagram	752	970	0	0	752	971	0	0	753	972	0	0	755	975	0	0	755	974	0	0	755	973	0	0	756	974	0	0	757	974	0	0	756	974	0	0	756	974	0	0	757	974	0	0	758	975	0	0	758	975	0	0	758	976	0	0	758	976	0	0
Account 29	1990	männlich	< 2 Stunden	2014	0	0	< 10	0	Ich bin jetzt nicht aktiver auf Instagram	873	1175	0	0	873	1175	1	0	874	1174	1	0	875	1173	0	0	873	1173	1	0	872	1173	0	0	873	1173	1	1	873	1173	0	0	873	1173	0	0	873	1173	0	0	873	1171	1	0	873	1172	1	1	871	1174	1	1	872	1174	0	0	871	1176	1	1
Account 30	1992	weiblich	< 5 Stunden	2012	> 10	7	< 100	< 30	Ich bin jetzt nicht aktiver auf Instagram	166773	993	1	0	166784	994	1	0	166781	994	1	0	166749	995	1	1	166698	995	1	1	166786	995	1	0	166788	994	1	1	166791	996	1	0	166817	997	1	0	166821	996	1	0	166776	996	1	1	166739	998	1	0	166734	999	1	1	166753	998	1	1	166773	999	1	0
")


hist(clairesdaten$Geburtsjahr)

table(clairesdaten$Geschlecht)

table(clairesdaten$Stunden.pro.Tag)

table(clairesdaten$Stunden.pro.Tag, clairesdaten$Geschlecht)

Was Du nicht machen kannst: Die Spaltennamen K und BR sind reine Excel-Namen. Die gibt es in R nicht. Das andere Problem ist, dass in Deiner Spalte "BR" fast nur Nullen stehen und nur eine einzige 1. Damit ist Zusammenhangsfindung schwierig. Zuguterletzt ist es keine gute Idee, dass mehrere Spalten "Story gepostet" oder "Bild gepostet" heißen. Da wäre es sinnvoller, jeder Spalte einen eindeutigen Namen zu geben.

LG,
Bernhard

Claire · Beitrag von **Claire** » Di Nov 24, 2020 2:14 pm

Lieber Bernhard,

Ich möchte mich vom ganzen Herzen für Deine Hilfe und Deine Unterstützung bedanken.

Das schätze ich wirklich sehr und du kannst Dir gar nicht vorstellen was mir das momentan bedeutet.

Kurz bevor ich gestern Nacht hier ins Forum geschrieben habe, hatte ich noch einen schrecklichen Heulkrampf...

Sobald ich heute Abend zuhause bin, werde ich die Datei noch einmal bearbeiten und aus 0 und 1 --> Ja und Nein machen.

Darf ich Dich dann heute Abend vielleicht noch einmal fragen, wie ich die aktualisierte Liste in mein R Studio bekomme?

Ich muss mit R irgendwie belegen, dass es einen Zusammenhang zwischen den steigenden (oder sinkenden) Followerzahlen und den geposteten Fotos oder Stories gibt. Also die (Excel Zahlenreihen K-BR) Hierfür muss ich mir dann noch andere und einfachere Bezeichnungen überlegen... Das jeweilige Datum kann aber bleiben oder? Ich weiß auch noch nicht, wie ich und mit welchen Befehlen ich das belegen soll bzw. wie man die Zusammenhänge gut darstellen kann. Irgendwie muss diese Hypothese belegt oder widerlegt werden. Für mich als R-Anfänger ist es gerade wirklich ein Fass ohne Boden ...

Ich wünsche Dir einen schönen Tag.

Ganz herzliche Grüße

Claire

Beitrag von **bigben** » Di Nov 24, 2020 3:20 pm

Liebe Claire,

Claire hat geschrieben: Di Nov 24, 2020 2:14 pmIch möchte mich vom ganzen Herzen für Deine Hilfe und Deine Unterstützung bedanken.

Danke, es ist schön, dass Du das so schreibst. Du bekommst hier im Forum allermeistens sehr verlässliche Hilfe von einer Handvoll Menschen mit großer Geduld und, soweit es die anderen angeht, auch großer Kompetenz. Wunder können wir nicht bewirken, aber Engstellen in R lassen sich damit umschiffen.

Sobald ich heute Abend zuhause bin, werde ich die Datei noch einmal bearbeiten und aus 0 und 1 --> Ja und Nein machen.

Solche Anpassungen kann man gut in R machen. Du lernst wahrscheinlich mehr, wenn Du das in R machst. Verwende darauf nicht zuviel Zeit, bemühe Dich lieber um die Spaltenüberschriften. Diese sollten vor allem mal eindeutig sein. Dann sollten Sie keine Bindestriche enthalten (die hält R für ein Minus) und möglichst auch keine Kommas oder Leerzeichen und nicht unnötig lang sein.

Darf ich Dich dann heute Abend vielleicht noch einmal fragen, wie ich die aktualisierte Liste in mein R Studio bekomme?

Viel besser: Du darfst nicht nur mich, sondern uns fragen. Ich zum Beispiel würde die Daten aus Excel als *.csv Datei exportieren aber natürlich können die auch ein Excelfile bleiben. Dann bringen wir sie mithilfe von RStudio in R.

Ich muss mit R irgendwie belegen, dass es einen Zusammenhang zwischen den steigenden (oder sinkenden) Followerzahlen und den geposteten Fotos oder Stories gibt. Also die (Excel Zahlenreihen K-BR)

Wenn es bei diesen beiden Spalten bleibt, dann bietet sich eine Korrelationsrechnung, beispielsweise nach Pearson oder nach Spearman an. Wenn weitere Variablen berücksichtigt werden sollen (also insgesamt mehr als zwei) dann eher eine Regressionsrechnung. Hast Du denn noch mehr Beobachtungen (mehr Zeilen) in Deinen Daten? Es bleibt nämlich dabei, dass man dafür in beiden Spalten Variation haben muss. Wenn die Spalte BR fast ausschließlich aus Nullen besteht, dann wird man keinen Zusammenhang von irgendwas mit einer Null feststellen können.

Ich schlage vor, dass Du Dich zu den Themen Pearson-Korrelation, Punkt-biserielle Korrelation und Spearman-Korrelation ein wenig beliest.

Ob Du heute Abend noch Antwort bekommst, weiß ich natürlich nicht, aber die Jungs sind schon recht fleißig im Forum.

LG,
Bernhard

Claire · Beitrag von **Claire** » Mi Nov 25, 2020 12:25 am

Lieber Bernhard,

Ich hoffe es geht Dir gut und ich hoffe, dass du einen schönen Tag hattest.

Es ist unendlich lieb von Dir, dass ich Dir Fragen stellen darf. Ihr alle seid der absolute Wahnsinn ! Noch einmal tausend Dank!!

Ich sitze mal wieder seit Stunden vor R und verzweifle schon wieder... Den Datensatz habe ich jetzt in eine CSV Datei umgewandelt und importiert.
Leider habe ich es nicht hinbekommen, die Daten direkt in R zu ändern. Es ist auch ganz seltsam, weil R mir zum Teil Punkte hinter den Unterstrichen anzeigt, die in der CSV Datei gar nicht zu sehen sind z.B in der Spaltenüberschrift "post_pro_woche"... Hat das einen Einfluss auch die Arbeit mit der Datei? Gibt es sonst noch Werte die ich Ändern sollte?

Die Nullen in den ersten Spalten wie z.B in der Spalte "stories pro woche " habe ich gelassen, da ich leider nicht weiß wie ich es anders darstellen soll. Kann es sein, dass die Variablen dadurch nicht richtig funktionieren? Die einfachsten Befehle werden nämlich leider nicht ausgeüber wie z.B

bargraph(~Geschlecht|stories_pro_Woche,data=Social_Media.)

--> Fehler in bargraph(~Geschlecht | stories_pro_Woche, data = Social_Media.) :
konnte Funktion "bargraph" nicht finden[/i][/i]

Alle anderen Spalten, habe ich geändert und immer nur noch die Alternativen "Ja oder nein" eingefügt.
Gerne sende ich Dir die überarbeite Datei auch noch einmal anbei.

Bezüglich der Hypothesenprüfung bzw. der Darstellung eines Zusammenhangs zwischen den Werten der Follower und den damit verbundenen ( steigenen oder sinkenen) Werten (beginnt bei follower_donnerstag_05.11.2020 bis follower_donnerstag_19.11.2020) und den an dem Tag geposteten Fotos oder Stories verliere ich wirklich den Verstand. Ich weiß auch nicht warum das für mich so unendlich schwierig ist.

Ich habe mir die Pearson-Korrelation, Punkt-biserielle Korrelation und Spearman-Korrelation angeschaut und habe leider keine Ahnung wie ich hier die Befehle verbinden soll bzw. hier auf ein Ergebnis komme. Es sind ja 14 Werte + die beiden jeweiligen Einflüsse die beachtet werden müssen.
Ich kriege es einfach nicht hin hier einen Zusammenhang herzustellen...Neben einer Auswertung muss ich das ganze auch noch zusätzlich irgendwie Graphisch darstellen. Ich sehe gerade nur noch Punkte vor den Augen.

Ich hatte mir vor ein paar Wochen auch Bücher zu dem Thema bestellt, aber ich finde ich auch in den Büchern nichts dazu...

Trotzdem bin ich mir sicher, dass R und ich noch gute Freunde werden und ich habe trotz der emotionalen Ausbrüche wirklichh große Lust das Program zu erlernen und in der Auswertung und Hypothesenprüfung auf ein gutes Ergebnis zu kommen

Ich wünsche Dir eine gute Nacht. Vielen, vielen Dank!

Herzliche Grüße

Claire

Beitrag von **bigben** » Mi Nov 25, 2020 7:26 am

Hallo Claire,

Claire hat geschrieben: Mi Nov 25, 2020 12:25 amDie einfachsten Befehle werden nämlich leider nicht ausgeüber wie z.B

bargraph(~Geschlecht|stories_pro_Woche,data=Social_Media.)

--> Fehler in bargraph(~Geschlecht | stories_pro_Woche, data = Social_Media.) :
konnte Funktion "bargraph" nicht finden[/i][/i]

Das ist der einfachste Teil. R kennt keinen Befehl mit diesem Namen. Jemand hat diesen Befehl in R programmiert. Wahrscheinlich stammt er aus dem Zusatzpaket "mosaic" und Du musst R zunächst sagen, dass Du "mosaic" verwenden möchtest. Das geht üblicherweise mit

Code: Alles auswählen

library(mosaic)

Wenn der Befehlt glatt durchläuft, dann kannst Du danach das mit dem bargraph nochmal versuchen.

Später mehr.
LG,
Bernhard

Beitrag von **bigben** » Mi Nov 25, 2020 8:57 am

So, da bin ich nochmal.

Claire hat geschrieben: Mi Nov 25, 2020 12:25 amDen Datensatz habe ich jetzt in eine CSV Datei umgewandelt und importiert.

Eine von mehreren Möglichkeiten ist es, die Daten wie folgt einzulesen:

Code: Alles auswählen

Social_Media <-  read.csv2("http://forum.r-statistik.de/download/file.php?id=1211",
                           stringsAsFactors = TRUE)

Über das stringsAsFactors wird es im Forum divergierende Meinungen geben, ich mach das jetzt mal so.

Es ist auch ganz seltsam, weil R mir zum Teil Punkte hinter den Unterstrichen anzeigt, die in der CSV Datei gar nicht zu sehen sind z.B in der Spaltenüberschrift "post_pro_woche"... Hat das einen Einfluss auch die Arbeit mit der Datei?

Das macht R normalerweise, wenn in Spaltennamen Leerzeichen vorkommen oder Sonderzeichen, die als Spaltenüberschrift nicht passen. Für die weitere Arbeit bedeutet das, dass Du mit Spaltennamen mit Punkten drin arbeiten oder Spalten umbenennen musst.
Wie die Spalten jetzt heißen zeigt Dir

Code: Alles auswählen

names(Social_Media)

Die Nullen in den ersten Spalten wie z.B in der Spalte "stories pro woche " habe ich gelassen, da ich leider nicht weiß wie ich es anders darstellen soll.

Das habe ich jetzt noch nicht verstanden.

Bezüglich der Hypothesenprüfung bzw. der Darstellung eines Zusammenhangs zwischen den Werten der Follower und den damit verbundenen ( steigenen oder sinkenen) Werten (beginnt bei follower_donnerstag_05.11.2020 bis follower_donnerstag_19.11.2020) und den an dem Tag geposteten Fotos oder Stories verliere ich wirklich den Verstand.

Hast Du diese Aufgabenstellung schon beschrieben? Mir ist nicht klar, was da wie ausgewertet werden soll. Bitte erklär das nochmal verständlich.

Ich habe mir die Pearson-Korrelation, Punkt-biserielle Korrelation und Spearman-Korrelation angeschaut und habe leider keine Ahnung wie ich hier die Befehle verbinden soll bzw. hier auf ein Ergebnis komme.

Ich kenne bisher die Aufgabenstellung zur prüfen, ob Spalte K und BR in einem Zusammenhang stehen. Dafür böte sich die punktbiserielle Korrelation an, die im Wesentlichen eine Pearson-Korrelation ist. Wikipedia beschreibt das so:

https://de.wikipedia.org/wiki/Punktbiseriale_Korrelation hat geschrieben:Als punktbiseriale Korrelation wird der Korrelationskoeffizient für den Zusammenhang zwischen einem intervallskalierten Merkmal und einem dichotomen (bernoulliverteilten) Merkmal D bezeichnet. Es handelt sich nicht um eine eigenständige Maßzahl, sondern um einen Spezialfall des gewöhnlichen Korrelationskoeffizienten nach Pearson,

Berechenbar etwa als

Code: Alles auswählen

cor.test(Social_Media$follower_donnerstag_05.11.2020, as.integer(Social_Media$bild_gepostet.14))

Das führt nominell zu einem p-value = 0.8615, was erstens nicht anders zu erwarten war, da bei bild_gepostet nur ein Ja vorkommt und zweitens als Test ohnehin kritisch ist, da es in follower_donnerstag_05.11.2020 einen riesigen Ausreißer gibt. Alternativ bei Ausreißern interessant kommt die Spearman-Korrelation infrage:

Code: Alles auswählen

cor.test(Social_Media$follower_donnerstag_05.11.2020, as.integer(Social_Media$bild_gepostet.14),
         method = "spearman")

Es sind ja 14 Werte + die beiden jeweiligen Einflüsse die beachtet werden müssen.

Das ist dann aber eine andere Aufgabe. Wahrscheinlich die von oben, die Du nochmal richtig ausformulieren musst.

Ich hatte mir vor ein paar Wochen auch Bücher zu dem Thema bestellt, aber ich finde ich auch in den Büchern nichts dazu...

Sowohl das Einlesen von Daten als auch die Korrelation als auch Grafiken in R sind in verschiedenen Büchern gut beschrieben. Bücher und Forum ergänzen sich: Bücher geben einem den Überblick und das Hintergrundwissen, das Forum hilft, wenn es trotzdem mal an einer individuellen Stelle hakt.

Noch kurz zu der Grafik mit den stories_pro_woche --- das wird von R erstmal als nominelle Variable eingelesen und um daraus eine ordinale Variable zu machen müssen wir R sagen, in welcher Reihenfolge die levels angeordnet sind. Man kann das beispielsweise machen, indem man eine neue Variable ähnlichen Namens aber eben als ordinalskalierte anlegt:

Code: Alles auswählen

Social_Media$st.p.w <- ordered(Social_Media$stories_pro_woche, 
                       levels = c("0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "> 10"))
# kontrolliere, dass st.p.w eine adäquate Variante von stories_pro_Woche ist:
table(Social_Media$stories_pro_woche)
table(Social_Media$st.p.w)

Dann lassen sich auch sinnvolle Grafiken zeichnen. Mit lattice Grafiken (wird von mosaic benutzt) kenne ich mich nicht aus, daher mal als Beispiel mit ggplot2:

Code: Alles auswählen

library(ggplot2)
ggplot(Social_Media) +
  geom_bar(aes(x = st.p.w)) +
  facet_grid(Geschlecht ~ .) +
  scale_x_discrete(drop=FALSE) +
  xlab("Stories pro Woche") +
  ylab("Anzahl Accounts")

LG,
Bernhard

Claire · Beitrag von **Claire** » Mi Nov 25, 2020 11:43 pm

Lieber Bernhard,

Ich hoffe, dass du einen schönen Tag hattest.

Ich habe Dir vorhin eine Privat Nachricht geschrieben, weil es mir so unglaublich unangenehmt ist, Deine unbeschhreiblich tolle Hilfe in Anspruch zu nehmen..

Wie mittlerweile schon ganz oft gesagt, machst du mir damit nicht nur eine große Freude sondern gibst mir auch mehr Selbstsichherheit im Umgang mit R. Für den Anfang hätte ich mir wahrschheinlich wirklich ein einfacheres Thema aussuchen sollen..Da war die Motivation größer als der Verstand

Jetzt sitze ich wieder hier und es ist die selbe Situation wie gestern Abend: Pures Chaos!

Ich habe den Datensatz gerade noch einmal bearbeitet und den Ausreisser rausgenommen und wieder eingelesen. Die Datei sende ich Dir gerne anbei. Leider funktionieren Deine Cor.Test- Befehle jetzt nicht mehr. R zeigt mir unter anderem die folgende Fehlermeldung:

cor.test(Social_Media.$follower_donnerstag_05.11.2020, as.integer(Social_Media.$bild_gepostet.14),
+ method = "spearman")
Fehler in cor.test.default(x, y, ...) : not enough finite observations
Zusätzlich: Warnmeldung:
In cor.test.default(x, y, ...) : NAs durch Umwandlung erzeugt

Auf die andere Bezeichnung/Dateiname (Punkt am Ende) habe ich geachtet .

Hier hast du jetzt einen Zusammenhang zwischen der Followeranzahl am 05.11.2020 (ersten Tag) und einem geposteten Bild am letzten Tag 14 hergestellt oder? Wenn ich mich nur auf einen Tag beziehe, muss ich die Auswertung immer für den Post oder die Story am gleichen Tag beziehen.
Kann R das "Ja" oder "Nein" deuten und wie wird das dann ausgewertet? Das würde ich mir so gerne noch einmal angucken. Ich möchte auch gerne den Hintergrund verstehen.

st.p.w

Social_Media$st.p.w <- ordered(Social_Media$stories_pro_woche,
levels = c("0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "> 10"))
# kontrolliere, dass st.p.w eine adäquate Variante von stories_pro_Woche ist:
table(Social_Media$stories_pro_woche)
table(Social_Media$st.p.w)

In die Zuordnung neuer Variablen muss ich mich noch einmal einlesen um nachvollziehen zu können, was hier genau passiert ist

Allgemein

Die Aufgabenstellung die ich prüfen muss ist, dass ich mit verschiedenen Test - Verfahren darstellen muss, ob es (auf die gesamten 14 Tage bezogen, (Excel Zahlenreihen K bis BR)) einen Zusammenhang zwischen einer steigenen oder sinkenen Followerzahl und den jeweils geposteten Bildern oder Storys gibt. Also eine Änderung der Followerzahl ( unter den Einflussfaktoren gepostetes Bild oder Story) am selben oder nächsten Tag. Hier sind für die 14 Tage jeweils die Spalten 1) Followerzahl und jeweiliges Datum 2) Story gepostet (ja oder Nein) und 3) Bild gepostet (ja oder Nein) relevant. Hier muss eine eventuelle Veränderung unter den beiden Einflussfaktioren (Bild oder Story) dargestellt werden. Wenn es die überhaupt gibt...Verändert sich sozusagen etwas an der Followerzahl, wenn jemand Bilder oder Stories postet? Hhat dies einen Einfluss auf die Followerzahl? Der Beobachtungszeitraum hierfür beträgt 14 Tage. Es geht also um ein Fazit aus den Werten über 2 Wochen.

Die erste Hälte der Spalten (A bis J) sind dafür eigentlich unrelevant. Die habe ich mitreingenommen um die Beobachter ein wenig " kennenzulernen".

Ich wünsche Dir eine gute Nacht.

Ganz herzliche Grüße

Claire

Beitrag von **bigben** » Do Nov 26, 2020 2:06 pm

Liebe Claire,

Claire hat geschrieben: Mi Nov 25, 2020 11:43 pmIch habe Dir vorhin eine Privat Nachricht geschrieben, weil es mir so unglaublich unangenehmt ist, Deine unbeschhreiblich tolle Hilfe in Anspruch zu nehmen.

Ich bin gerade ein wenig im Stress und werde die PN später beantworten. Du brauchst keine Hemmungen haben, Fragen zu stellen. Wir haben auch keine Hemmungen nur die Fragen zu beantworten, die wir beantworten wollen.

Jetzt sitze ich wieder hier und es ist die selbe Situation wie gestern Abend: Pures Chaos!

Ich habe den Datensatz gerade noch einmal bearbeitet und den Ausreisser rausgenommen und wieder eingelesen. Die Datei sende ich Dir gerne anbei. Leider funktionieren Deine Cor.Test- Befehle jetzt nicht mehr. R zeigt mir unter anderem die folgende Fehlermeldung:

Leider kann ich das so nicht nachvollziehen. Ich kann die neue Datei einlesen wie die alte:

Code: Alles auswählen

Social_Media <-  read.csv2("http://forum.r-statistik.de/download/file.php?id=1213",
                           stringsAsFactors = TRUE)

und wenn ich dann deinen Aufruf von cor.test übernehme, beschwert R sich über den Punkt in "Social_Media.$" Keine Ahnung, warum Du den da eingebaut hast. Ansonsten sieht das bei mir dann so aus:

Code: Alles auswählen

> cor.test(Social_Media$follower_donnerstag_05.11.2020, as.integer(Social_Media$bild_gepostet.14),
+          method = "spearman")

	Spearman's rank correlation rho

data:  Social_Media$follower_donnerstag_05.11.2020 and as.integer(Social_Media$bild_gepostet.14)
S = 4885.5, p-value = 0.2901
alternative hypothesis: true rho is not equal to 0
sample estimates:
       rho 
-0.2033143 

Warning message:
In cor.test.default(Social_Media$follower_donnerstag_05.11.2020,  :
  Kann exakten p-Wert bei Bindungen nicht berechnen

Auf die andere Bezeichnung/Dateiname (Punkt am Ende) habe ich geachtet .

Warum hast Du Social_Media denn jetzt mit einem Punkt geschrieben? Das verstehe ich nicht.

Hier hast du jetzt einen Zusammenhang zwischen der Followeranzahl am 05.11.2020 (ersten Tag) und einem geposteten Bild am letzten Tag 14 hergestellt oder?

So hatte ich Deine Aufgabenstellung oben verstanden. Geschrieben hast Du :"(Spalten K-BR)".

Kann R das "Ja" oder "Nein" deuten und wie wird das dann ausgewertet?

In dem read.csv2 Kommando steht das Argument "stringsAsFactor = TRUE". Das führt dazu, dass R Dein "Ja" und "Nein" nicht als Text sondern als factor versteht. Factor ist der R Datentyp für nominale Variablen ist. Ganz bestimmt findest Du in Deinen Büchern einiges lesenswertes über den Datentyp Factor und über Rs Umgang damit. Intern codiert R jetzt jedes "Ja" mit einer 1 und jedes "Nein" mit einer 2.

st.p.w

Social_Media$st.p.w <- ordered(Social_Media$stories_pro_woche,
levels = c("0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "> 10"))
# kontrolliere, dass st.p.w eine adäquate Variante von stories_pro_Woche ist:
table(Social_Media$stories_pro_woche)
table(Social_Media$st.p.w)

In die Zuordnung neuer Variablen muss ich mich noch einmal einlesen um nachvollziehen zu können, was hier genau passiert ist

Auch die Stories pro Woche hat R als Faktor, also als nominale Variable, eingelesen. und intern alphabetisch sortiert. Mit dem Befehl

Code: Alles auswählen

ordered()

kann man R sagen, dass es daraus einen ordered factor, also eine ordinale Angabe, machen soll. Mit levels = wird hier festgelegt, in welcher Reihenfolge die möglichen Stufen der Ordinalvariable stehen. Dadurch kann R dann in der Grafik die Reihenfolge richtig anordnen.

Die Aufgabenstellung die ich prüfen muss ist, dass ich mit verschiedenen Test - Verfahren darstellen muss, ob es (auf die gesamten 14 Tage bezogen, (Excel Zahlenreihen K bis BR)) einen Zusammenhang zwischen einer steigenen oder sinkenen Followerzahl und den jeweils geposteten Bildern oder Storys gibt.[
[...]
Es geht also um ein Fazit aus den Werten über 2 Wochen.

Also ging es nicht um den Zusammenhang zwischen den Spalten K und BR sondern um die Spalten K bis BR. Nun, nachdem ich Dir gezeigt habe, wie man zwei Spalten mittels Korrelation zueinander in Beziehung setzt musst Du die Daten der verschiedenen Tage untereinander copieren, dass die Daten der gesamten 14 Tage in drei Spalten passen. Das würde ich grundsätzlich in R machen, aber da Du erstmal damit beschäftigt bist, die Datentypen factor und ordered kennen zu lernen und gleichzeitig Dich mit Korrelationsrechnung beschäftigen musst wäre das vielleicht zuviel auf einmal. Vielleicht wäre es gut, wenn Du die verschiedenen Spalten in Excel mit copy&paste untereinander kopierst.

LG,
Bernhard

Claire · Beitrag von **Claire** » Do Nov 26, 2020 3:42 pm

Lieber Bernard,

Vielen, vielen Dank für deine Rückmeldung

Ich gucke mir das heute Abend in Ruhe an.

Den neuen Aufbau von den Daten habe ich nicht ganz verstanden.

Meinst du wie auf dem Bild anbei ?

wohin kommen dann die Bezeichnungen des jeweiligen Datums und der Abonnenten ? oder fallen die dann ganz weg? Gibt es dann überhaupt nochh eine Zeilenbeschriftung?

Ganz liebe Grüße und noch einen schönen Tag,

Claire

Deutsches R-Forum

ganz freundliche Bitte um Hilfe - Datensatz

ganz freundliche Bitte um Hilfe - Datensatz

Re: ganz freundliche Bitte um Hilfe - Datensatz

Re: ganz freundliche Bitte um Hilfe - Datensatz

Re: ganz freundliche Bitte um Hilfe - Datensatz

Re: ganz freundliche Bitte um Hilfe - Datensatz

Re: ganz freundliche Bitte um Hilfe - Datensatz

Re: ganz freundliche Bitte um Hilfe - Datensatz

Re: ganz freundliche Bitte um Hilfe - Datensatz

Re: ganz freundliche Bitte um Hilfe - Datensatz

Re: ganz freundliche Bitte um Hilfe - Datensatz