Leerzeichen aus Korpus entfernen

Wie rufe ich R-Funktionen auf, wie selektiere ich Daten, ich weiß nicht genau ....

Moderatoren: EDi, jogo

Antworten
zanric
Beiträge: 2
Registriert: Do Okt 31, 2019 11:58 am

Leerzeichen aus Korpus entfernen

Beitrag von zanric » Do Okt 31, 2019 12:09 pm

Liebe Community,

ich habe aus mehreren Textdokumenten einen Korpus mit dem Text Mining- Package erstellt. Leider enthält der Korpus unterschiedliche Symbole für Leerzeichen/Absätze wie /n und //f. Die Leerzeichen, die mit /n in meinem Korpus erscheinen, konnte ich mit gsub entfernen. Leider funktioniert dies nicht für die Leerzeichen/Absätze mit //f.

Beispieltext:
"\\fThis document was created using environmentallyfriendly methods designed to minimise paper use. It is\", \"printed on PEFC-certified paper sourced from sustainably\", \n\"managed forests. The printer is an Imprim’Vert certified\", \"company. It recycles and processes all printing wastes.\", \"This document is recyclable.\", \"\", \"\\fPhotos: © Raphaël Dautigny\", \"\", \"A French limited company with share capital of €7,204,980,873\", \"Paris Trade and Company Registry No. 784608416\", \"91-93, boulevard Pasteur • 75015 Paris\", \"Tel. (33) 1 43 23 52 02 • credit-agricole.com\", \"\", \"\\f\")"

Mein Code:

Code: Alles auswählen

docnames <- list.files(pattern = "txt$")
doc<- lapply(filenames, readLines)
corpus <- Corpus(VectorSource(doc), readerControl = list(language="lat"))
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\n", replacement = "") #funktioniert 
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\\f", replacement = "") #funktioniert nicht
Würde mich wirklich sehr über eure Hilfe freuen!

Liebe Grüße
Zanny

Benutzeravatar
student
Beiträge: 346
Registriert: Fr Okt 07, 2016 9:52 am

Re: Leerzeichen aus Korpus entfernen

Beitrag von student » Do Okt 31, 2019 2:06 pm

Hallo Zanny,

schau Dir mal die Funktionen des stringr-Paktetes an: https://www.r-statistik.de/R_erweitern/Paket_Bibliothek/paket_bibliothek.html#stringr
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)

Athomas
Beiträge: 289
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Leerzeichen aus Korpus entfernen

Beitrag von Athomas » Do Okt 31, 2019 2:40 pm

Vielleicht

Code: Alles auswählen

pattern = "\\\\f"
:?:

zanric
Beiträge: 2
Registriert: Do Okt 31, 2019 11:58 am

Re: Leerzeichen aus Korpus entfernen

Beitrag von zanric » Do Okt 31, 2019 10:41 pm

Athomas hat geschrieben:
Do Okt 31, 2019 2:40 pm
Vielleicht

Code: Alles auswählen

pattern = "\\\\f"
:?:
Das klappt. Vielen Dank dir!
student hat geschrieben:
Do Okt 31, 2019 2:06 pm
Hallo Zanny,

schau Dir mal die Funktionen des stringr-Paktetes an: https://www.r-statistik.de/R_erweitern/Paket_Bibliothek/paket_bibliothek.html#stringr
Vielen Dank für den Tipp. Schaue ich mir mal an.

Antworten