Stringdist - amatch im Substring
Verfasst: So Okt 08, 2017 9:13 pm
Hallo,
ich versuche zurzeit zwei Datensätze zu vereinen, die leider keinen genauen gemeinsamen Key haben. Daher probere ich anhand der amatch Funktion aus dem 'stringdist' Packet string Variablen einander zuzuordnen.
Mit der normalen Matching Methode bin ich schon recht weit gekommen:
Allerdings haben die Titel im 'AB' Dataframe teilweise weitere Informationen im Namen, die im 'AA' Dataframe nicht auftauchen. Daher würde ich gerne nur den substring des 'AB' dataframes durchsuchen, der solang wie die Variable im 'AA' Dataframe ist. Ich habe das mit den Funktionen 'substr' und 'nchar' so probiert:
Allerdings bekomme ich dadurch nicht nur nicht die matches mit den Titeln, die extra Informationen im Namen haben, ich finde insgesamt weniger matches als vorher. Habe ich eine der Funktionen falsch verstanden oder angewandt?
Vielen Dank für die Hilfe!
ps: Falls jemand noch Vorschläge für eine besser Methode des matchings hat, wäre ich auch sehr neugierig
ich versuche zurzeit zwei Datensätze zu vereinen, die leider keinen genauen gemeinsamen Key haben. Daher probere ich anhand der amatch Funktion aus dem 'stringdist' Packet string Variablen einander zuzuordnen.
Mit der normalen Matching Methode bin ich schon recht weit gekommen:
Code: Alles auswählen
library(stringdist)
AA$match<- amatch(tolower(AA$Titel_AA),tolower(AB$Titel_AB), maxDist=2)
Code: Alles auswählen
AA$bmatch <- amatch(tolower(AA$Titel_AA),tolower(substr(AB$Titel_AB,1,nchar(as.character(AA$Titel_AA)))), maxDist=2)
Vielen Dank für die Hilfe!
ps: Falls jemand noch Vorschläge für eine besser Methode des matchings hat, wäre ich auch sehr neugierig