Wortkombinationen
Verfasst: Do Mai 09, 2019 4:24 pm
Hallo,
Ich bin gerade dabei ein Text-Mining-Tool zu entwerfen und muss dafür irgendwie sämtliche Wortkombinationen aus einem Text extrahieren. Ich bin soweit, dass ich den Text in kleinere Strings (z.B. 5 Wörter) zerlegt habe und diese dann in einem Vektor abgespeichert sind. Ich habe also einen Vektor mit x-Zeilen (jede Zeile ein String mit z.B. 5 Wörtern) und möchte nur für jede Zeile alle möglichen Wortkombinationen haben. Dabei soll die Anzahl an Wörter in der Wortkombination variabel sein, also von 1 bis 5(Länge des einzelnen Strings).
Beispielstring: "Heute ist schönes Wetter draußen" --- Dann möchte ich für eine Zweierkombi die Wortkombinationen: "Heute ist", "Heute schönes", ..., "Wetter draußen", etc.. Und für eine Viererkombi die Wortkombinationen: "Heute ist schönes Wetter", "Heute ist schönes draußen",...,"ist schönes Wetter draußen", etc..
Hat da jemand eine Idee?
Vielen Dank und Gruß Joe
Ich bin gerade dabei ein Text-Mining-Tool zu entwerfen und muss dafür irgendwie sämtliche Wortkombinationen aus einem Text extrahieren. Ich bin soweit, dass ich den Text in kleinere Strings (z.B. 5 Wörter) zerlegt habe und diese dann in einem Vektor abgespeichert sind. Ich habe also einen Vektor mit x-Zeilen (jede Zeile ein String mit z.B. 5 Wörtern) und möchte nur für jede Zeile alle möglichen Wortkombinationen haben. Dabei soll die Anzahl an Wörter in der Wortkombination variabel sein, also von 1 bis 5(Länge des einzelnen Strings).
Beispielstring: "Heute ist schönes Wetter draußen" --- Dann möchte ich für eine Zweierkombi die Wortkombinationen: "Heute ist", "Heute schönes", ..., "Wetter draußen", etc.. Und für eine Viererkombi die Wortkombinationen: "Heute ist schönes Wetter", "Heute ist schönes draußen",...,"ist schönes Wetter draußen", etc..
Hat da jemand eine Idee?
Vielen Dank und Gruß Joe