Seite 1 von 1

Mehrfachnennungen in Daten bestmöglich analysieren

Verfasst: Di Jun 20, 2023 10:20 am
von gming11
Liebes alle,

ich habe eine Effiizenzfrage. Und zwar, habe ich einen Datensatz bekommen wo in mehreren Spalten „Mehrfachnennungen“ vorhanden sind. Dies ist in diesem Fall ärgerlich, da natürlich R dies so nicht erkennt und eine binäre Kodierung besser wäre auf mehrere Spalten verteilt.
Meine Frage ist nun wie bekomme ich dies am besten hin, dass ich die Daten dann analysieren kann?

Anbei ein Pseudocode:

Code: Alles auswählen

Placebo <- c("0;1;2","50","10;80","2;15")
Verum <- c("10;1","59;100","79","1;0")
bsp1 <- (data.frame(Placebo, Verum))
Vielen lieben Dank für eure Hilfe!

Liebe Grüße

Re: Mehrfachnennungen in Daten bestmöglich analysieren

Verfasst: Di Jun 20, 2023 3:56 pm
von Athomas
Gibst Du uns noch einen Tipp, wie diese "Mehrfachnennungen" zu interpretieren sind?
Worauf beziehen sich die Zeilen, was bedeutet es, wenn in der ersten Zeile unter "Placebo" drei Einträge stehen - und bei "Verum" zwei!?

Re: Mehrfachnennungen in Daten bestmöglich analysieren

Verfasst: Di Jun 27, 2023 8:57 am
von gming11
Hallo,

dies sollte prinzipiell nur das ganze veranschaulichen, es könnten bis zu 15 verschiedene Nennungen möglich sein. In der Regel waren ca. 2-3 Nennungen von ca. 15 verschiedenen Kategorien. Jene sind leider so kodiert worden wie im Pseudo-Code angeführt.

Re: Mehrfachnennungen in Daten bestmöglich analysieren

Verfasst: Di Jun 27, 2023 10:55 am
von Athomas
Hmm - ist das die Antwort auf meine (ich denke, recht präzise) Frage :? ?

Re: Mehrfachnennungen in Daten bestmöglich analysieren

Verfasst: Mo Jul 03, 2023 9:45 am
von gming11
Ich dachte dies hat nichts mit meiner Frage zu tun. Aber gut gerne: Es gab zwei Gruppen (Placebo und verum) und das Outcome hier repräsentiert durch die Merhfachnennungsvariable. Die Variable zählt dabei nur auf wie viele verschiedene Krankheiten aufgetreten sind. Die Analyse soll aber spezifisch auf verschiedene Krankheiten sein. Ergo sollte jede Zahl einzeln analysiert werden, ergo muss ich die Variable der Mehrfachnennung auf ca. 12 Kategorien und Variablen aufteilen. Die Frage ist, wie ich dies effizient machen kann. Danke

Liebe Grüße

Re: Mehrfachnennungen in Daten bestmöglich analysieren

Verfasst: Mo Jul 03, 2023 6:59 pm
von bigben
gming11 hat geschrieben: Mo Jul 03, 2023 9:45 amIch dachte dies hat nichts mit meiner Frage zu tun.
Mag sein, aber Deine Frage will erstmal verstanden sein. Ich glaube jetzt verstanden zu haben, dass der Placebo-Eintrag in Zeile 3 überhaupt nichts mit dem Verum-Eintrag in Zeile 3 zu tun hat. Mit dieser Annahme entfallen ein Haufen Fragen und Probleme.

Willst Du am Ende nur wissen, wie oft welche Zahl in Verum genannt wurde? Dann vielleicht so:

Code: Alles auswählen

Verum <- c("10;1","59;100","79","1;0")
Verum |> strsplit(";") |> unlist() |> table()
Wäre schön, diesmal eine Rückmeldung zu bekommen, ob es funktioniert hat.

Re: Mehrfachnennungen in Daten bestmöglich analysieren

Verfasst: Mi Jul 05, 2023 10:08 am
von gming11
Hallo danke für den Versuch.

Vielleicht mache ich ein anderes beispiel, um es besser zu illustrieren. Tut mir leid, wenn es nicht klar ist.

Code: Alles auswählen

Grupp1 <- c("1;2","1","3;2")
bsp1 <- (data.frame(Grupp1)
Hier habe ich zwei Gruppen, mit jeweils 3 Personen. Nun will ich die Mehrfachnennungen jeweils in einer eigenen Kategorie haben.

Es sollte dann wie in des Excel sehr vereinfacht aussehen.
Bildschirmfoto 2023-07-05 um 10.06.39.png
Liebe Grüße

Re: Mehrfachnennungen in Daten bestmöglich analysieren

Verfasst: Do Jul 06, 2023 10:00 pm
von EDi
Ich hab zwar den Faden verloren, wie dieses Format jetzt mit der Ausgangsfrage zu tun hat, aber hier mal eine Idee:

Code: Alles auswählen

Grupp1 <- c("1;2","1","3;2")
bsp1 <- (data.frame(Grupp1))

# add person column
bsp1$Person <- row(bsp1)


splitted <- unique(strsplit(bsp1$Grupp1, split = ";"))
dplyr::bind_rows(sapply(splitted, table))
PS: Das ist ein unschönes Datenformat...