ich habe einen Datensatz, der Inhalte von Posts von Social Media Seiten enthält. Dabei macht mir die Spalte "Kommentar" viele Probleme. Mein Ziel ist es bestimmte Muster aus dieser Spalte auszuschneiden und in eine neue Spalte zu implemtieren.
Ich versuch dies mal anhand eines Beispiels etwas zu konkretisieren:
Kommentar
\U0001f1233\U0001f2311Hallo Welt \u2019 #Sommer
\U0001f2678 Es ist schön
#Sommer #Sonne Yeah es ist endlich so weit
Ich möchte gerne diese Spalte so ändern, dass ich bspw. kriege:
\U0001f2678 ; \U0001f1233 ; \U0001f2311 ; \u2019 ; # ; Anzahl #s ; Kommentar
0 ;1 ; 1 ; 1 ;#Sommer ; 1 ; Hallo Welt
1 ; 0 ; 0 ; 0 ; 0 ; 0 ; Es ist schön
0 ;0 ; 0 ;0 ;#Sommer #Sonne ; 2 ;Yeah es ist endlich so weit
Es gibt einige Muster z.B. die Unicodes "\U0001f*****", "\u****". Die Länge ist stets gleich für diese beiden Arten, wobei die * für variable Zahlen-und Buchstabenkombinationen stehen. Die Hashtags, wiederum enden stets mit einem Leerzeichen, jedoch ist ihre Länge variabel. Im Grunde will diese Muster ausschneiden, als Zählvariabel nehmen und die Kommentarspalte nur mit Texten bestehend haben.
Ich habe mir das Package stringr runtergeladen und etwas probiert, jedoch krieg ich das noch nicht hin. Ich bemüh mich hier gleich noch per R so ein Bsp. zu erstellen und es hier reinzustellen.
Bitte bedenkt, dass bzgl Datentransformierung und -Erstellung noch wenig gemacht habe. Deshalb freue ich mich über alles, also ob Tipps oder Lösungen sind.
Code: Alles auswählen
#install.packages("stringr")
library(stringr)
data <- data.frame( Kommentar=character())
data<- structure(list(Kommentar=c("\U0001f1233\U0001f2311Hallo Welt \u2019 #Sommer","\U0001f2678 Es ist schön","#Sommer #Sonne Yeah es ist endlich so weit" )))
data
emojis1<- data %>%
str_extract_all("\\U0001f(.*?)") %>%
str_sub(1, 11) %>%
unique()
emojis1