Leerzeichen aus Korpus entfernen

zanric · Beitrag von **zanric** » Do Okt 31, 2019 12:09 pm

Liebe Community,

ich habe aus mehreren Textdokumenten einen Korpus mit dem Text Mining- Package erstellt. Leider enthält der Korpus unterschiedliche Symbole für Leerzeichen/Absätze wie /n und //f. Die Leerzeichen, die mit /n in meinem Korpus erscheinen, konnte ich mit gsub entfernen. Leider funktioniert dies nicht für die Leerzeichen/Absätze mit //f.

Beispieltext:
"\\fThis document was created using environmentallyfriendly methods designed to minimise paper use. It is\", \"printed on PEFC-certiﬁed paper sourced from sustainably\", \n\"managed forests. The printer is an Imprim’Vert certiﬁed\", \"company. It recycles and processes all printing wastes.\", \"This document is recyclable.\", \"\", \"\\fPhotos: © Raphaël Dautigny\", \"\", \"A French limited company with share capital of €7,204,980,873\", \"Paris Trade and Company Registry No. 784608416\", \"91-93, boulevard Pasteur • 75015 Paris\", \"Tel. (33) 1 43 23 52 02 • credit-agricole.com\", \"\", \"\\f\")"

Mein Code:

Code: Alles auswählen

docnames <- list.files(pattern = "txt$")
doc<- lapply(filenames, readLines)
corpus <- Corpus(VectorSource(doc), readerControl = list(language="lat"))
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\n", replacement = "") #funktioniert 
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\\f", replacement = "") #funktioniert nicht

Würde mich wirklich sehr über eure Hilfe freuen!

Liebe Grüße
Zanny

Beitrag von **student** » Do Okt 31, 2019 2:06 pm

Hallo Zanny,

schau Dir mal die Funktionen des stringr-Paktetes an: https://www.r-statistik.de/R_erweitern/Paket_Bibliothek/paket_bibliothek.html#stringr

Athomas · Beitrag von **Athomas** » Do Okt 31, 2019 2:40 pm

Vielleicht

Code: Alles auswählen

pattern = "\\\\f"

zanric · Beitrag von **zanric** » Do Okt 31, 2019 10:41 pm

Athomas hat geschrieben: ↑Do Okt 31, 2019 2:40 pm Vielleicht
Code: Alles auswählen
pattern = "\\\\f"

Das klappt. Vielen Dank dir!

student hat geschrieben: ↑Do Okt 31, 2019 2:06 pm Hallo Zanny,

schau Dir mal die Funktionen des stringr-Paktetes an: https://www.r-statistik.de/R_erweitern/Paket_Bibliothek/paket_bibliothek.html#stringr

Vielen Dank für den Tipp. Schaue ich mir mal an.

Deutsches R-Forum

Leerzeichen aus Korpus entfernen

Leerzeichen aus Korpus entfernen

Re: Leerzeichen aus Korpus entfernen

Re: Leerzeichen aus Korpus entfernen

Re: Leerzeichen aus Korpus entfernen