Mergen von Datensätzen anhand einzelner Buchstaben

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
sophie
Beiträge: 1
Registriert: Mo Feb 15, 2021 3:32 pm

Mergen von Datensätzen anhand einzelner Buchstaben

Beitrag von sophie »

Hallo,

ich habe mehrere Datensätze mit einzelnen Wörtern sowie Ratings dieser Wörter auf verschiedenen Dimensionen (z.B. Valenz), die ich zusammenführen möchte. Allerdings stammen diese Datensätze aus verschiedenen Veröffentlichungen und die Wörter sind nicht exakt gleich (Datensatz A enthält bspw. das Wort "adventure", während Datensatz B das Wort "adventurous" enthält). Da die merge-Funktion nur Zeilen mit Wörtern beibehält, die identisch sind, suche ich nun nach einer Möglichkeit, alle Zeilen zu erhalten, die in beiden Datensätzen wenigstens die ersten vier Buchstaben teilen. Das heißt, die Zeile, die in Datensatz A "adventure" enthält, würde im gemergten Datensatz in der gleichen Zeile die Ratings enthalten, die in Datensatz B für "adventurous" abgegeben wurden. Gibt es hierfür eine Lösung?

Vielen Dank schon einmal!!
bigben
Beiträge: 2072
Registriert: Mi Okt 12, 2016 9:09 am

Re: Mergen von Datensätzen anhand einzelner Buchstaben

Beitrag von bigben »

Geeignete Spalten zum mergen mit substr machen? Siehe

Code: Alles auswählen

bsp <- c("adventurous", "adventure", "Apfel", "Apfelkuchen", "Mondfahrt", "Mondglaube", "Tollkühn", "Tollkirsche")
substring(bsp, 1, 4)
Vielleicht hilfreich: Das Zusatzpaket "fuzzyjoin"; Leseeinstieg: https://github.com/dgrtwo/fuzzyjoin

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten