Mergen von Datensätzen anhand einzelner Buchstaben

sophie · Beitrag von **sophie** » Mo Feb 15, 2021 3:46 pm

Hallo,

ich habe mehrere Datensätze mit einzelnen Wörtern sowie Ratings dieser Wörter auf verschiedenen Dimensionen (z.B. Valenz), die ich zusammenführen möchte. Allerdings stammen diese Datensätze aus verschiedenen Veröffentlichungen und die Wörter sind nicht exakt gleich (Datensatz A enthält bspw. das Wort "adventure", während Datensatz B das Wort "adventurous" enthält). Da die merge-Funktion nur Zeilen mit Wörtern beibehält, die identisch sind, suche ich nun nach einer Möglichkeit, alle Zeilen zu erhalten, die in beiden Datensätzen wenigstens die ersten vier Buchstaben teilen. Das heißt, die Zeile, die in Datensatz A "adventure" enthält, würde im gemergten Datensatz in der gleichen Zeile die Ratings enthalten, die in Datensatz B für "adventurous" abgegeben wurden. Gibt es hierfür eine Lösung?

Vielen Dank schon einmal!!

Beitrag von **bigben** » Mo Feb 15, 2021 4:05 pm

Geeignete Spalten zum mergen mit substr machen? Siehe

Code: Alles auswählen

bsp <- c("adventurous", "adventure", "Apfel", "Apfelkuchen", "Mondfahrt", "Mondglaube", "Tollkühn", "Tollkirsche")
substring(bsp, 1, 4)

Vielleicht hilfreich: Das Zusatzpaket "fuzzyjoin"; Leseeinstieg: https://github.com/dgrtwo/fuzzyjoin

LG,
Bernhard

Deutsches R-Forum

Mergen von Datensätzen anhand einzelner Buchstaben

Mergen von Datensätzen anhand einzelner Buchstaben

Re: Mergen von Datensätzen anhand einzelner Buchstaben