im Augenblick muss ich eine Datei mit fester Spaltenbreite in R importieren.
Nach einigem Testen und Recherchieren verwende ich dazu die Funktion read_fwf aus dem readr-Paket.
Die ist ordentlich schnell und einfach zu verwenden.
Probleme bereitet mir jetzt aber ein Feld, in dem Ortsnamen stehen, die auch deutsche Umlaute enthalten.
Laut Windows-Editor ist die Datei "UTF-8-UNIX" kodiert.
Wenn ich die jetzt per read_fwf einlese, werden alle Felder nach dem Ortsnamen, die einen Umlaut enthalten, um ein Zeichen versetzt.
In meiner Ursprungsdatei steht beispielsweise:
Code: Alles auswählen
...Herne mGS...
...Lübeck wLD...
Im ersten Fall funktioniert das auch, und ich erhalte als Ortsname "Herne", für Geschlecht "m" und beim Familienstand ist es eben "GS".
Beim zweiten Datensatz bleibt das Merkmal Geschlecht leer und dafür steht im Familienstand "wL", während das "D" noch wieder ein Feld "weiterrutscht".
Langer Rede, kurzer Sinn.
Kann ich die Kodierung für Dateioperationen anpassen und wenn ja, wie und wo?
Vielen Dank schonmal vorab
Benne
Nachtrag:
Ich hab' jetzt mal ausprobiert, was passiert, wenn ich mit UltraEdit den Zeichensatz auf "DOS" setze.
Dann sieht im Editor alles gut aus, die Datei wird von R per read_fwf insoweit korrekt eingelesen, dass alle Spalten an der korrekten Stelle landen.
Allerdings zeigt mir R jetzt die Umlaute nicht mehr richtig an.
Für ein "ü" steht da dann "<fc>" und aus einem "ä" wird "<e4>".
Ist das jetzt nur ein Anzeigeproblem von R bzw. RStudio?
Nebenbei bemerkt, arbeite ich hier unter Windows 7.