Daten formatieren und in spalten trennen

ad_berlin · Beitrag von **ad_berlin** » Do Aug 15, 2019 2:51 pm

Hi, ich habe eine Spalte (properties) in einem Datensatz die in etwas wie folgt aussieht:

properties
,"{'gender': 'Female', 'document_type': 'driving_licence', 'date_of_expiry': '2023-02-28', 'issuing_country': 'GBR'}",
,"{'document_type': 'driving_licence', 'date_of_expiry': '2044-12-14', 'issuing_country': 'GRC'}",
,"{'gender': 'Male', 'document_type': 'driving_licence', 'date_of_expiry': '2019-06-11', 'issuing_country': 'GBR'}",
,"{'gender': 'Female', 'document_type': 'driving_licence', 'date_of_expiry': '2023-12-06', 'issuing_country': 'GBR'}",

die eintrage in properties sind also nicht alle gleich. Ich würde die spalte gerne so formatieren das sie am ende so aussieht

gender, doc_type, doe, country,
female, driving_license, 2023-02-28, GBR,

usw....

kann mir jemand sagen wie ich das am besten mache?

Beitrag von **bigben** » Do Aug 15, 2019 3:59 pm

Hallo ad_berlin,

für mich sieht das so aus, als wäre Dein Eingabeformat JSON. Ist das so? Dann müsste man das Rad nicht neu erfinden und könnte auf ein package für JSON zurückgreifen.
Sowas zum Beispiel https://www.tutorialspoint.com/r/r_json_files bzw. https://cran.r-project.org/web/packages ... index.html

LG,
Bernhard

ad_berlin · Beitrag von **ad_berlin** » Do Aug 15, 2019 5:34 pm

Moin Bernhard,

danke für die prompte Hilfe. Ich bin ein kleines Stück weiter gekommen habe folgendes gemacht:

Die spalte "kopiert"
json_properties <- doc_report$properties

Dann wollte ich mit:
json_properties <- fromJSON(json_properties)

das ganze konvertieren. Bekam jedoch den Fehler:
Error in fromJSON(json_properties) :
STRING_ELT() can only be applied to a 'character vector', not a 'integer'

also habe ich einen string draus gemacht:
toString(json_properties)

der Fehler bleibt jedoch auch danach der gleiche.

Dann habe ich noch ausprobiert es in einen data.frame zu konvertieren mit:
json_properties <- as.data.frame(json_properties)

das klappt aber bringt nicht wirklich was.

Auf dem ersten link den du geschickt hast ist das format auch etwas anders. Meinst du mein format ist tatsächlich json?

hier nochmal wie das bei mir aussieht nachdem ich die spalte in einen son file ausgegeben habe:
"","x"
"1","{'gender': 'Male', 'nationality': 'IRL', 'document_type': 'passport', 'date_of_expiry': '2019-08-12', 'issuing_country': 'IRL'}"
"2","{'gender': 'Female', 'document_type': 'driving_licence', 'date_of_expiry': '2023-02-28', 'issuing_country': 'GBR'}"
"3","{'gender': 'Male', 'nationality': 'ITA', 'document_type': 'passport', 'date_of_expiry': '2018-06-09', 'issuing_country': 'ITA'}"
"4","{'gender': 'Male', 'issuing_date': '2007-08', 'document_type': 'national_identity_card', 'issuing_country': 'FRA'}"
"5","{'gender': 'Male', 'nationality': 'POL', 'document_type': 'national_identity_card', 'date_of_expiry': '2019-05-29', 'issuing_country': 'POL'}"
"6","{'gender': 'Male', 'nationality': 'BRA', 'document_type': 'passport', 'date_of_expiry': '2027-01-04', 'issuing_country': 'BRA'}"
"7","{'gender': 'Male', 'nationality': 'ESP', 'document_type': 'national_identity_card', 'date_of_expiry': '2019-04-03', 'issuing_country': 'ESP'}"
"8","{'gender': 'Male', 'document_type': 'driving_licence', 'date_of_expiry': '2023-11-20', 'issuing_country': 'GBR'}"
"9","{'gender': 'Male', 'document_type': 'driving_licence', 'date_of_expiry': '2021-01-18', 'issuing_country': 'GBR'}"
"10","{'gender': 'Male', 'document_type': 'driving_licence', 'date_of_expiry': '2023-07-25', 'issuing_country': 'GBR'}"
use...

Beitrag von **EDi** » Do Aug 15, 2019 11:38 pm

Das ist kein valides JSON (wegen den single-quotes):http://www.json.org/

Wieso hast du denn ein Vektor von JSONs? I
Ich vermute das Problem liegt weiter vorne...

Trotzem hier eine Lösung:
quotes fixen und mit purrr::map_df über den Vektor laufen und das JSON einlesen.