Seite 1 von 1

Leerzeichen aus Korpus entfernen

Verfasst: Do Okt 31, 2019 12:09 pm
von zanric
Liebe Community,

ich habe aus mehreren Textdokumenten einen Korpus mit dem Text Mining- Package erstellt. Leider enthält der Korpus unterschiedliche Symbole für Leerzeichen/Absätze wie /n und //f. Die Leerzeichen, die mit /n in meinem Korpus erscheinen, konnte ich mit gsub entfernen. Leider funktioniert dies nicht für die Leerzeichen/Absätze mit //f.

Beispieltext:
"\\fThis document was created using environmentallyfriendly methods designed to minimise paper use. It is\", \"printed on PEFC-certified paper sourced from sustainably\", \n\"managed forests. The printer is an Imprim’Vert certified\", \"company. It recycles and processes all printing wastes.\", \"This document is recyclable.\", \"\", \"\\fPhotos: © Raphaël Dautigny\", \"\", \"A French limited company with share capital of €7,204,980,873\", \"Paris Trade and Company Registry No. 784608416\", \"91-93, boulevard Pasteur • 75015 Paris\", \"Tel. (33) 1 43 23 52 02 • credit-agricole.com\", \"\", \"\\f\")"

Mein Code:

Code: Alles auswählen

docnames <- list.files(pattern = "txt$")
doc<- lapply(filenames, readLines)
corpus <- Corpus(VectorSource(doc), readerControl = list(language="lat"))
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\n", replacement = "") #funktioniert 
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\\f", replacement = "") #funktioniert nicht
Würde mich wirklich sehr über eure Hilfe freuen!

Liebe Grüße
Zanny

Re: Leerzeichen aus Korpus entfernen

Verfasst: Do Okt 31, 2019 2:06 pm
von student
Hallo Zanny,

schau Dir mal die Funktionen des stringr-Paktetes an: https://www.r-statistik.de/R_erweitern/Paket_Bibliothek/paket_bibliothek.html#stringr

Re: Leerzeichen aus Korpus entfernen

Verfasst: Do Okt 31, 2019 2:40 pm
von Athomas
Vielleicht

Code: Alles auswählen

pattern = "\\\\f"
:?:

Re: Leerzeichen aus Korpus entfernen

Verfasst: Do Okt 31, 2019 10:41 pm
von zanric
Athomas hat geschrieben: Do Okt 31, 2019 2:40 pm Vielleicht

Code: Alles auswählen

pattern = "\\\\f"
:?:
Das klappt. Vielen Dank dir!
student hat geschrieben: Do Okt 31, 2019 2:06 pm Hallo Zanny,

schau Dir mal die Funktionen des stringr-Paktetes an: https://www.r-statistik.de/R_erweitern/Paket_Bibliothek/paket_bibliothek.html#stringr
Vielen Dank für den Tipp. Schaue ich mir mal an.