Wortkombinationen

Wie erweitere ich R um eigene Funktionen oder Pakete? Welches Paket ist passend für meine Fragestellung?

Moderatoren: EDi, jogo

Antworten
joekorf
Beiträge: 2
Registriert: Do Mai 09, 2019 4:10 pm

Wortkombinationen

Beitrag von joekorf »

Hallo,

Ich bin gerade dabei ein Text-Mining-Tool zu entwerfen und muss dafür irgendwie sämtliche Wortkombinationen aus einem Text extrahieren. Ich bin soweit, dass ich den Text in kleinere Strings (z.B. 5 Wörter) zerlegt habe und diese dann in einem Vektor abgespeichert sind. Ich habe also einen Vektor mit x-Zeilen (jede Zeile ein String mit z.B. 5 Wörtern) und möchte nur für jede Zeile alle möglichen Wortkombinationen haben. Dabei soll die Anzahl an Wörter in der Wortkombination variabel sein, also von 1 bis 5(Länge des einzelnen Strings).

Beispielstring: "Heute ist schönes Wetter draußen" --- Dann möchte ich für eine Zweierkombi die Wortkombinationen: "Heute ist", "Heute schönes", ..., "Wetter draußen", etc.. Und für eine Viererkombi die Wortkombinationen: "Heute ist schönes Wetter", "Heute ist schönes draußen",...,"ist schönes Wetter draußen", etc..

Hat da jemand eine Idee?

Vielen Dank und Gruß Joe
jogo
Beiträge: 2086
Registriert: Fr Okt 07, 2016 8:25 am

Re: Wortkombinationen

Beitrag von jogo »

Hallo Joe,

willkommen im Forum!

Code: Alles auswählen

combn(c("Heute", "ist", "schönes", "Wetter", "draußen"), m=3)
Gruß, Jörg
joekorf
Beiträge: 2
Registriert: Do Mai 09, 2019 4:10 pm

Re: Wortkombinationen

Beitrag von joekorf »

Hallo Jörg,

vielen Dank, das hilft schon mal weiter. Allerdings wird dabei ja jede Reihe als ein Wort angesehen und miteinander kombiniert. Ich habe ja als eine Reihe immer einen String mit mehreren Wörtern, der so als ein Wort gesehen wird. Bei deiner Lösung wird also die Kombination innerhalb des gesamten Vektors gebildet, ich bräuchte allerdings die Kombinationen innerhalb einer Reihe, also innerhalb des einen Strings.
Ich könnte meinen Vektor zu einem Data-Frame ändern dann würde das gehen, aber das würde ich aus bestimmten Gründen lieber vermeiden.

Code: Alles auswählen

library(ngram)
x <- "The length of the word is going to be a fantastic example for my school class"
Objekt = ngram(x, n=5, sep=" ")
Objekt = get.ngrams(Objekt)
Objekt
Hier würde so ein Vektor rauskommen.


Gruß Joe
Antworten