ich habe aus mehreren Textdokumenten einen Korpus mit dem Text Mining- Package erstellt. Leider enthält der Korpus unterschiedliche Symbole für Leerzeichen/Absätze wie /n und //f. Die Leerzeichen, die mit /n in meinem Korpus erscheinen, konnte ich mit gsub entfernen. Leider funktioniert dies nicht für die Leerzeichen/Absätze mit //f.
Beispieltext:
"\\fThis document was created using environmentallyfriendly methods designed to minimise paper use. It is\", \"printed on PEFC-certified paper sourced from sustainably\", \n\"managed forests. The printer is an Imprim’Vert certified\", \"company. It recycles and processes all printing wastes.\", \"This document is recyclable.\", \"\", \"\\fPhotos: © Raphaël Dautigny\", \"\", \"A French limited company with share capital of €7,204,980,873\", \"Paris Trade and Company Registry No. 784608416\", \"91-93, boulevard Pasteur • 75015 Paris\", \"Tel. (33) 1 43 23 52 02 • credit-agricole.com\", \"\", \"\\f\")"
Mein Code:
Code: Alles auswählen
docnames <- list.files(pattern = "txt$")
doc<- lapply(filenames, readLines)
corpus <- Corpus(VectorSource(doc), readerControl = list(language="lat"))
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\n", replacement = "") #funktioniert
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\\f", replacement = "") #funktioniert nicht
Liebe Grüße
Zanny