Seite 1 von 1

Textmining Wortkombination suchen

Verfasst: Di Jan 14, 2020 5:43 pm
von red_ma
Hallo zusammen,

ich habe leider noch ein weiteres Problem bezüglich der Text-Mining Arbeit. Und zwar habe ich eine Tokenisierung vorgenommen, die den Text in zwei Wörtern splittet.

Beispiel: Ich liebe innovatives arbeiten.
ich liebe
innovatives arbeiten

Nachdem ich durch "stemming" den Wortstamm herausgefiltert hatte, habe ich im nächsten Schritt eine Excel Liste erstellt mit Wortkombinationen, die ich im Text suche.

Beispiel:
innovativ* denken
innovativ* arbeiten
usw.

Diese Excel Liste habe ich durch einen inner_join mit der Datei verknüpft um die Worthäufigkeit auszugeben. Es klappte, aber nun suche ich eine Lösung mit der ich nur das erste Wort z.B innovativ angebe und mir dahingehend alle möglichen Wortkombinationen im Text beginnend mit "innovativ" angezeigt werden. Ist dies realisierbar und wenn ja, wie könnte man das lösen? Vielen Dank im voraus!

Re: Textmining Wortkombination suchen

Verfasst: Di Jan 14, 2020 11:24 pm
von EDi
So hier?

Code: Alles auswählen

string <- 'Ich liebe innovatives arbeiten. Innovativ ist gut.'
pattern <- 'innovativ* denken'

library(stringr)
library(magrittr)
# get first word of pattern we want to match
pattern1 <- word(pattern, 1) %>% 
  str_replace('\\*', '')

# split string into word vector
words <- string %>% 
  tolower() %>% 
  str_split("\\s")

# check where our pattern matches
matches <- which(str_detect(words[[1]], pattern1))
# word following our match
words[[1]][matches+1]