Seite 1 von 1

Mergen von Datensätzen anhand einzelner Buchstaben

Verfasst: Mo Feb 15, 2021 3:46 pm
von sophie
Hallo,

ich habe mehrere Datensätze mit einzelnen Wörtern sowie Ratings dieser Wörter auf verschiedenen Dimensionen (z.B. Valenz), die ich zusammenführen möchte. Allerdings stammen diese Datensätze aus verschiedenen Veröffentlichungen und die Wörter sind nicht exakt gleich (Datensatz A enthält bspw. das Wort "adventure", während Datensatz B das Wort "adventurous" enthält). Da die merge-Funktion nur Zeilen mit Wörtern beibehält, die identisch sind, suche ich nun nach einer Möglichkeit, alle Zeilen zu erhalten, die in beiden Datensätzen wenigstens die ersten vier Buchstaben teilen. Das heißt, die Zeile, die in Datensatz A "adventure" enthält, würde im gemergten Datensatz in der gleichen Zeile die Ratings enthalten, die in Datensatz B für "adventurous" abgegeben wurden. Gibt es hierfür eine Lösung?

Vielen Dank schon einmal!!

Re: Mergen von Datensätzen anhand einzelner Buchstaben

Verfasst: Mo Feb 15, 2021 4:05 pm
von bigben
Geeignete Spalten zum mergen mit substr machen? Siehe

Code: Alles auswählen

bsp <- c("adventurous", "adventure", "Apfel", "Apfelkuchen", "Mondfahrt", "Mondglaube", "Tollkühn", "Tollkirsche")
substring(bsp, 1, 4)
Vielleicht hilfreich: Das Zusatzpaket "fuzzyjoin"; Leseeinstieg: https://github.com/dgrtwo/fuzzyjoin

LG,
Bernhard