Deutsches R-Forum

Verfasst: **So Mär 22, 2020 2:27 pm**

Hallo liebe Leute,

ich bekomme folgende Fehlermeldung, wenn ich nach "grün" suche:
Illegal mix of collations (utf8mb4_unicode_ci,IMPLICIT) and (utf8_general_ci,COERCIBLE) for operation 'like'

bei einem Befehl zum Abruf von Daten aus einer (US-amerikanisch gehosteten) Datenbank mit Kindersprachdaten.
Was muss ich tun?

Hier mein Code:

Code: Alles auswählen

dunkelgrün_all <- get_tokens(collection = "German",role = c("mother", "father"), token = c("dunkelgrün", "dunkelgrüne", "dunkelgrüner", "dunkelgrünes", "dunkelgrünen", "dunkelgrünem"))
hist(dunkelgrün_all$target_child_age)
describe(dunkelgrün_all$target_child_age)

# Subset dunkelgrün 3yo
dunkelgrün_3yo <- subset(dunkelgrün_all, target_child_age < 42)
describe(dunkelgrün_3yo$target_child_age)
hist(dunkelgrün_3yo$target_child_age)
nrow(dunkelgrün_3yo)

Vorher werden folgende Packages installiert:

Code: Alles auswählen

rm(list=ls())
install.packages("childesr")
library(childesr)
install.packages("psych")
library(psych)

Verfasst: **So Mär 22, 2020 8:18 pm**

Gude!

Ich habe keine Ahnung, was das für eine Datenbank ist, und kenne auch die Pakete nicht, aber das 'ü' ist das Problem.
Siehe https://de.wikipedia.org/wiki/UTF-8
Ich würde auch empfehlen, keine Umlaute in Variablennamen zu verwenden.

Dank&Gruß
Schubbiaschwilli

Verfasst: **Di Mär 24, 2020 12:46 pm**

Vielen Dank für den Hinweis.
Ich habe das "ü" im Variablen-Namen entfernt. Im Suchstring muss es ja aber weiterhin drin sein, oder kann ich es dort durch irgendwas neutrales ersetzen?

Der Code sieht jetzt so aus:

Code: Alles auswählen

# 7. GRüN
gruen_all <-  get_tokens(collection="German", role = c("mother", "father"), token = c("grün", "grüne", "grüner","grünes", "grünen", "grünem"))
hist(gruen_all$target_child_age)
describe(gruen_all$target_child_age)

Kann ich das "ü" in den tokens auch durch eine stabile Unicode-Variante ersetzen?

Verfasst: **Di Mär 24, 2020 1:33 pm**

Hi!

Versuch doch mal Deine ganzen Grüns versuchsweise durch ein Wort ohne Umlaut zu ersetzen. 'braun' oder 'lila' vielleicht? Damit könntest Du erstmal klären, ob die Umlaute im Suchbegriff wirklich das entscheidende Problem sind.

LG,
Bernhard

Verfasst: **Mi Mär 25, 2020 2:39 pm**

Ja, für die anderen Farbwörter geht es. Nur die Sonderzeichen (Ü, ß) verursachen diese Fehlermeldung.

Verfasst: **Mi Mär 25, 2020 2:57 pm**

Wenn ich mir die Beschreibung zu "get_tokens" im Package "childesr" angucke - ein Vorgehen, das generell wärmstens zu empfehlen ist

, finde ich

token - A character vector of one or more token patterns (‘%‘ matches any number ofwildcard characters, ‘_‘ matches exactly one wildcard character)

Das würde mich veranlassen, es mal mit "gr%un" an Stelle von "grün" zu versuchen!?

Nachtrag: Au weia, ich meinte natürlich "gr%n"

!

Deutsches R-Forum

Problem mit Unicode für Abruf aus Sprachdatenbank

Problem mit Unicode für Abruf aus Sprachdatenbank

Re: Problem mit Unicode für Abruf aus Sprachdatenbank

Re: Problem mit Unicode für Abruf aus Sprachdatenbank

Re: Problem mit Unicode für Abruf aus Sprachdatenbank

Re: Problem mit Unicode für Abruf aus Sprachdatenbank

Re: Problem mit Unicode für Abruf aus Sprachdatenbank