Leerzeichen aus Korpus entfernen

Wie rufe ich R-Funktionen auf, wie selektiere ich Daten, ich weiß nicht genau ....

Moderatoren: EDi, jogo

Antworten
zanric
Beiträge: 2
Registriert: Do Okt 31, 2019 11:58 am

Leerzeichen aus Korpus entfernen

Beitrag von zanric »

Liebe Community,

ich habe aus mehreren Textdokumenten einen Korpus mit dem Text Mining- Package erstellt. Leider enthält der Korpus unterschiedliche Symbole für Leerzeichen/Absätze wie /n und //f. Die Leerzeichen, die mit /n in meinem Korpus erscheinen, konnte ich mit gsub entfernen. Leider funktioniert dies nicht für die Leerzeichen/Absätze mit //f.

Beispieltext:
"\\fThis document was created using environmentallyfriendly methods designed to minimise paper use. It is\", \"printed on PEFC-certified paper sourced from sustainably\", \n\"managed forests. The printer is an Imprim’Vert certified\", \"company. It recycles and processes all printing wastes.\", \"This document is recyclable.\", \"\", \"\\fPhotos: © Raphaël Dautigny\", \"\", \"A French limited company with share capital of €7,204,980,873\", \"Paris Trade and Company Registry No. 784608416\", \"91-93, boulevard Pasteur • 75015 Paris\", \"Tel. (33) 1 43 23 52 02 • credit-agricole.com\", \"\", \"\\f\")"

Mein Code:

Code: Alles auswählen

docnames <- list.files(pattern = "txt$")
doc<- lapply(filenames, readLines)
corpus <- Corpus(VectorSource(doc), readerControl = list(language="lat"))
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\n", replacement = "") #funktioniert 
corpus1 <- tm_map(corpus, content_transformer(gsub), pattern = "\\f", replacement = "") #funktioniert nicht
Würde mich wirklich sehr über eure Hilfe freuen!

Liebe Grüße
Zanny
Benutzeravatar
student
Beiträge: 674
Registriert: Fr Okt 07, 2016 9:52 am

Re: Leerzeichen aus Korpus entfernen

Beitrag von student »

Hallo Zanny,

schau Dir mal die Funktionen des stringr-Paktetes an: https://www.r-statistik.de/R_erweitern/Paket_Bibliothek/paket_bibliothek.html#stringr
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
Athomas
Beiträge: 768
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Leerzeichen aus Korpus entfernen

Beitrag von Athomas »

Vielleicht

Code: Alles auswählen

pattern = "\\\\f"
:?:
zanric
Beiträge: 2
Registriert: Do Okt 31, 2019 11:58 am

Re: Leerzeichen aus Korpus entfernen

Beitrag von zanric »

Athomas hat geschrieben: Do Okt 31, 2019 2:40 pm Vielleicht

Code: Alles auswählen

pattern = "\\\\f"
:?:
Das klappt. Vielen Dank dir!
student hat geschrieben: Do Okt 31, 2019 2:06 pm Hallo Zanny,

schau Dir mal die Funktionen des stringr-Paktetes an: https://www.r-statistik.de/R_erweitern/Paket_Bibliothek/paket_bibliothek.html#stringr
Vielen Dank für den Tipp. Schaue ich mir mal an.
Antworten