Seite 1 von 1

Wortkombinationen in tm zählen

Verfasst: Mi Jul 11, 2018 3:58 pm
von MisterD
Hallo zusammen!

Für meine erste Frage hier im Forum habe ich folgendes Problem:
Ich habe mit dem tm Package einen Textcorpus aus einer csv-Datei erstellt, in der ursprünglich reihenweise in den Zellen Text steht, den ich analysieren möchte. Hierzu folgende Problematik: Ich kann einfache Häufigkeitenauszählungen von bestimmten Wörtern machen, jedoch interessiert es mich auch, wie häufig Wortkombinationen vorkommen. Z.B. möchte ich wissen, ob in den einzelnen Texten "Wort1" und "Wort2" (+ "Wort3" usw.) vorkommen (muss nicht direkt hintereinander sein) und wenn ja, dass das als 1 gezählt wird, damit ich das aufsummieren kann.

Ich hoffe, ihr versteht mein Anliegen und habt eine Lösung parat.

Sofern ich im falschen Unterforum gelandet bin tut es mir Leid. Es kann gerne verschoben werden.


Beste Grüße
David

Re: Wortkombinationen in tm zählen

Verfasst: Do Jul 12, 2018 7:38 am
von student
Hallo David,

Deine Fragestellung kommt mir bekannt vor und ich hatte in der Vergangenheit dazu ein paar R-Funktionen geschrieben. Dabei ging es nicht nur um finden von Buchstaben/Wortkombinationen sondern auch deren Verarbeitung. Dabei hat das Paket stringr eine wesentliche Rolle gespielt.

Vielleicht hilft der Hinweis ein wenig weiter...