Eigene Stopwords-Datei einbinden?
Verfasst: Fr Aug 02, 2019 2:37 pm
Hallo an Alle,
Das ist mein erster Post und ich freue mich dieses Forum gefunden zu haben, da ich noch ein ziemlicher Anfänger in R bin, das aber gerne ändern würde
Folgende Frage/Problemstellung:
Ich habe einen Datenkorpus angelegt den ich hauptsächlich mit RQDA bearbeite (top Paket für MaxQDA Umsteiger). Nebenbei wollte ich aus Interesse ein bisschen mit anderen R-Funktionen spielen (tm und wordcloud vor allem).
Ich arbeite mit folgendem Code, den ich von https://lucidmanager.org/qualitative-data-science/ übernommen und angepasst habe:
Meine Frage bezieht sich auf die Entfernung der "Stopp Wörter". Die deutschen stoppwörter im tm-Paket sind sehr dürftig (= für meine Zwecke zu wenige). Ich würde gerne die Liste von Github verwenden: https://github.com/solariz/german_stopw ... _plain.txt und dieses ggf. durch eigene Begriffe ergänzen.
Da es sich um wirklich viele Wörter handelt, scheint es mir unpraktisch mit der Funktion zu arbeiten:
Die eigentliche Frage:
Ich bin etwas unerfolgreich in meiner Suchmaschinen-Recherche, was ich finde ist z.B. folgendes:
https://stackoverflow.com/questions/184 ... ds-in-r-tm
Was ich aber gerne tun würde wäre die "german_stopwords_plain.txt" in R zu laden um dann einfach den pfad angeben zu müssen. (oder Ähnliches)
Ich bin mir sehr sicher dass das total einfach ist - aber gerade bin ich zu unbeholfen um richtig zu suchen.
Erbarmt sich jemand und kann mir sagen wie man das macht?
Liebe Grüße!
PS:
R version 3.4.4 (2018-03-15) -- "Someone to Lean On"
Copyright (C) 2018 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu (64-bit)
/edit:
versucht habe ich es mit:
folgende Meldum kam:
threads <- VCorpus(VectorSource(threads$file))
Credits gehen zu StackOverflow; https://stackoverflow.com/questions/519 ... -documents
Damit habe ich den Fehler selbst gefunden. Danke trotzdem für das lesen!
Das ist mein erster Post und ich freue mich dieses Forum gefunden zu haben, da ich noch ein ziemlicher Anfänger in R bin, das aber gerne ändern würde

Folgende Frage/Problemstellung:
Ich habe einen Datenkorpus angelegt den ich hauptsächlich mit RQDA bearbeite (top Paket für MaxQDA Umsteiger). Nebenbei wollte ich aus Interesse ein bisschen mit anderen R-Funktionen spielen (tm und wordcloud vor allem).
Ich arbeite mit folgendem Code, den ich von https://lucidmanager.org/qualitative-data-science/ übernommen und angepasst habe:
Code: Alles auswählen
library(tidyverse)
library(RQDA)
library(tm)
library(wordcloud)
library(igraph)
openProject("~/Masterarbeit/Projekt.rqda")
threads <- data.frame(name = RQDAQuery("SELECT name FROM source"),
text = RQDAQuery("SELECT file FROM source"))
threads <- Corpus(VectorSource(threads$file))
threads <- tm_map(threads, stripWhitespace)
threads <- tm_map(threads, content_transformer(tolower))
threads <- tm_map(threads, removeWords, stopwords("german"))
threads <- tm_map(threads, removePunctuation)
threads <- tm_map(threads, removeNumbers)
# Word cloud
set.seed(1969)
wordcloud(threads, min.freq = 10, max.words = 50, rot.per=0.35,
colors = brewer.pal(8, "Blues")[-1:-5])
Da es sich um wirklich viele Wörter handelt, scheint es mir unpraktisch mit der Funktion zu arbeiten:
Code: Alles auswählen
threads <- tm_map(threads, removeWords, c("Wort1", "Wort2")) ....
Ich bin etwas unerfolgreich in meiner Suchmaschinen-Recherche, was ich finde ist z.B. folgendes:
https://stackoverflow.com/questions/184 ... ds-in-r-tm
Was ich aber gerne tun würde wäre die "german_stopwords_plain.txt" in R zu laden um dann einfach den pfad angeben zu müssen. (oder Ähnliches)
Ich bin mir sehr sicher dass das total einfach ist - aber gerade bin ich zu unbeholfen um richtig zu suchen.
Erbarmt sich jemand und kann mir sagen wie man das macht?
Liebe Grüße!
PS:
R version 3.4.4 (2018-03-15) -- "Someone to Lean On"
Copyright (C) 2018 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu (64-bit)
/edit:
versucht habe ich es mit:
Code: Alles auswählen
mystopwords <- readLines("~/Masterarbeit/mystopwords.txt")
threads <- tm_map(threads, removeWords, mystopwords)
beheben konnte ich die Meldung in dem ich im Code folgendes geändert habe:Warnmeldung:
In tm_map.SimpleCorpus(threads, removeWords, mystopwords) :
transformation drops documents
threads <- VCorpus(VectorSource(threads$file))
Credits gehen zu StackOverflow; https://stackoverflow.com/questions/519 ... -documents
Damit habe ich den Fehler selbst gefunden. Danke trotzdem für das lesen!