Nur einzelne Missing Values ausschließen
-
- Beiträge: 5
- Registriert: Do Dez 24, 2020 1:13 pm
Nur einzelne Missing Values ausschließen
Hallo ihr Lieben,
erstmal frohe Weihnachten euch allen! Habt schöne Feiertage!
Ich erstelle zur Zeit im Rahmen des Studiums einen komplexen Indikator in R zum Thema Bildung in der EU. Nun habe ich im gesamten Datensatz 4 fehlende Werte über verschieden Variablen verteilt. Wenn ich die NAs wie gewohnt löschen will, wird ein ganzes Land ausgeschlossen und nicht nur der eine fehlende Wert. Das ist natürlich fatal, wenn ich vier Länder der EU komplett verliere. Gibt es da eine Lösung nur einzelne Werte auszuschließen und nicht die ganze Reihe? Ich habe vom Befehl na.rm=TRUE gelesen. Aber wenn ich jetzt beispielsweise die PCA nach der Standardiesierung durchführen will mit dem Code Bildung_pca <- prcomp(Bildung_zvars, na.rm=TRUE), kommt die Fehlermeldung, dass der Befehl na.rm=TRUE unberücksichtigt bleibt. Mein Problem bezieht sich aber darauf, wie ich die NAs aus allen Berechnungen ausschließen kann, nicht nur bei der PCA.
Vielleicht weiß ja jemand was dazu!
Grüße
erstmal frohe Weihnachten euch allen! Habt schöne Feiertage!
Ich erstelle zur Zeit im Rahmen des Studiums einen komplexen Indikator in R zum Thema Bildung in der EU. Nun habe ich im gesamten Datensatz 4 fehlende Werte über verschieden Variablen verteilt. Wenn ich die NAs wie gewohnt löschen will, wird ein ganzes Land ausgeschlossen und nicht nur der eine fehlende Wert. Das ist natürlich fatal, wenn ich vier Länder der EU komplett verliere. Gibt es da eine Lösung nur einzelne Werte auszuschließen und nicht die ganze Reihe? Ich habe vom Befehl na.rm=TRUE gelesen. Aber wenn ich jetzt beispielsweise die PCA nach der Standardiesierung durchführen will mit dem Code Bildung_pca <- prcomp(Bildung_zvars, na.rm=TRUE), kommt die Fehlermeldung, dass der Befehl na.rm=TRUE unberücksichtigt bleibt. Mein Problem bezieht sich aber darauf, wie ich die NAs aus allen Berechnungen ausschließen kann, nicht nur bei der PCA.
Vielleicht weiß ja jemand was dazu!
Grüße
Re: Nur einzelne Missing Values ausschließen
Hallo Geostudentin,
willkommen im Forum!
- und auch Dir, hohoho, schöne Feiertage!
Ich glaube, Du solltest auf Deinen Dataframe die Funktion na.omit() anwenden und dann erst prcomp().
Kannst Du bitte trotzdem den Output von folgenden Funktionen posten?
Gruß, Jörg
willkommen im Forum!
- und auch Dir, hohoho, schöne Feiertage!
na.rm=TRUE ist kein Befehl sondern ein Parameter in verschiedenen Funktionen, die dann entsprechend damit umgehen sollen.
Offensichtlich hat die Funktion prcomp() keinen Parameter mit dem Namen na.rm= ... so beschreibt es zumindest der Hilfetext der FunktionAber wenn ich jetzt beispielsweise die PCA nach der Standardisierung durchführen will mit dem Code Bildung_pca <- prcomp(Bildung_zvars, na.rm=TRUE), kommt die Fehlermeldung, dass der Befehl na.rm=TRUE unberücksichtigt bleibt. Mein Problem bezieht sich aber darauf, wie ich die NAs aus allen Berechnungen ausschließen kann, nicht nur bei der PCA.
Code: Alles auswählen
help(prcomp)
Kannst Du bitte trotzdem den Output von folgenden Funktionen posten?
Code: Alles auswählen
str(Bildung_zvars)
summary(Bildung_zvars)
-
- Beiträge: 5
- Registriert: Do Dez 24, 2020 1:13 pm
Re: Nur einzelne Missing Values ausschließen
Hallo Jörg,
vielen Dank für diese schnelle Rückmeldung!
Hier mal der Output:
Grüße
vielen Dank für diese schnelle Rückmeldung!
Hier mal der Output:
Code: Alles auswählen
Abschluss ter.V1 Abbrechende.V1 Sprachen.V1
Min. :-1.9625638 Min. :-1.5328609 Min. :-1.7614624
1st Qu.:-0.8479935 1st Qu.:-0.6039701 1st Qu.:-0.7331492
Median : 0.1556743 Median :-0.1653273 Median : 0.2951640
Mean : 0.0000000 Mean : 0.0000000 Mean : 0.0000000
3rd Qu.: 0.5271977 3rd Qu.: 0.3894269 3rd Qu.: 0.5522423
Max. : 1.6972193 Max. : 2.1568997 Max. : 2.3517903
Pisa_Lesen.V1 Pisa_NTW.V1 Pisa_Mathe.V1
Min. :-1.3850284 Min. :-1.6252162 Min. :-1.5316245
1st Qu.:-0.6254774 1st Qu.:-0.5218188 1st Qu.:-0.5686701
Median :-0.2537822 Median :-0.3277540 Median :-0.0399319
Mean : 0.0000000 Mean : 0.0000000 Mean : 0.0000000
3rd Qu.: 0.3603229 3rd Qu.: 0.3209771 3rd Qu.: 0.6881596
Max. : 2.4935300 Max. : 2.5554953 Max. : 2.9500428
erw_Dauer.V1 durch_Dauer.V1 LS_Schule.V1
Min. :-1.4327856 Min. :-2.5981416 Min. :-1.4692585
1st Qu.:-0.7699549 1st Qu.:-0.6154413 1st Qu.:-0.7504367
Median :-0.2276388 Median : 0.3287016 Median :-0.3011730
Mean : 0.0000000 Mean : 0.0000000 Mean : 0.0000000
3rd Qu.: 0.6460926 3rd Qu.: 0.6119445 3rd Qu.: 0.7995229
Max. : 1.8813680 Max. : 2.0281590 Max. : 2.1697770
LS_UNI.V1 L_Anteil.V1 Ausgaben_B.V1
Min. :-1.684959 Min. :-1.6327666 Min. :-1.7840085
1st Qu.:-0.495036 1st Qu.:-0.5632688 1st Qu.:-0.6913033
Median :-0.095650 Median :-0.2067696 Median :-0.1784008
Mean : 0.000000 Mean : 0.0000000 Mean : 0.0000000
3rd Qu.: 0.147276 3rd Qu.: 0.1497297 3rd Qu.: 0.5129024
Max. : 3.964087 Max. : 2.6452245 Max. : 2.3192110
NA's :1 NA's :2 NA's :1
Ausgaben_FE.V1
Min. :-1.2687790
1st Qu.:-0.8295863
Median :-0.2805954
Mean : 0.0000000
3rd Qu.: 0.5977901
Max. : 1.9153683
Grüße
Zuletzt geändert von jogo am Do Dez 24, 2020 3:53 pm, insgesamt 1-mal geändert.
Grund: Formatierung verbessert, siehe http://forum.r-statistik.de/viewtopic.php?f=20&t=29
Grund: Formatierung verbessert, siehe http://forum.r-statistik.de/viewtopic.php?f=20&t=29
-
- Beiträge: 5
- Registriert: Do Dez 24, 2020 1:13 pm
Re: Nur einzelne Missing Values ausschließen
Hallo nochmal,
also ich habe na.omit genutzt, aber dann habe ich wieder das Problem, dass das komplette Land gelöscht wird, in dem der fehlende Wert auftaucht, obwohl ich nur einen fehlenden Wert entfernen möchte.
Grüße
also ich habe na.omit genutzt, aber dann habe ich wieder das Problem, dass das komplette Land gelöscht wird, in dem der fehlende Wert auftaucht, obwohl ich nur einen fehlenden Wert entfernen möchte.
Grüße
Re: Nur einzelne Missing Values ausschließen
Hallo Geostudentin,
Die entscheidende Frage ist:
was erwartest Du, wie mit den fehlenden Werten umgegangen werden soll?
Du hast pro Land eine Beobachtung in den entsprechenden Variablen.
Gruß, Jörg
das kann ich mir vorstellen.Geostudentin hat geschrieben: ↑Do Dez 24, 2020 4:10 pm also ich habe na.omit genutzt, aber dann habe ich wieder das Problem, dass das komplette Land gelöscht wird, in dem der fehlende Wert auftaucht, obwohl ich nur einen fehlenden Wert entfernen möchte.
Die entscheidende Frage ist:
was erwartest Du, wie mit den fehlenden Werten umgegangen werden soll?
Du hast pro Land eine Beobachtung in den entsprechenden Variablen.
Gruß, Jörg
-
- Beiträge: 5
- Registriert: Do Dez 24, 2020 1:13 pm
Re: Nur einzelne Missing Values ausschließen
Hallo Jörg,
ich hatte die Hoffnung, dass nicht das ganze Land für alle Berechnungen rausfällt. Wenn z.b für Irland ein Wert für die Bildungsausgaben fehlt, hatte ich gehofft, dass Irland trotzdem in der Tabelle bleibt. Ansonsten muss ich wohl damit leben und diese Länder rausschmeißen oder andere Einzelindikatoren finden.
Vielen Dank für die Unterstützung!
Grüße
ich hatte die Hoffnung, dass nicht das ganze Land für alle Berechnungen rausfällt. Wenn z.b für Irland ein Wert für die Bildungsausgaben fehlt, hatte ich gehofft, dass Irland trotzdem in der Tabelle bleibt. Ansonsten muss ich wohl damit leben und diese Länder rausschmeißen oder andere Einzelindikatoren finden.
Vielen Dank für die Unterstützung!
Grüße
Re: Nur einzelne Missing Values ausschließen
Naja, du könntest auch Spalten mit vielen missing ausschließen aus der PCA, dann fallen auch nicht so viele Zeilen weg.
Bei einer PCA kann man auch mit mean-Imputation arbeiten, weil der Mittelwert hat wenig Einfluss auf die PCA.... Aber auch hier macht es wenig Sinn Spalten zu imputieren bei denen der Großteil fehlt.
Bei einer PCA kann man auch mit mean-Imputation arbeiten, weil der Mittelwert hat wenig Einfluss auf die PCA.... Aber auch hier macht es wenig Sinn Spalten zu imputieren bei denen der Großteil fehlt.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
.
-
- Beiträge: 5
- Registriert: Do Dez 24, 2020 1:13 pm
Re: Nur einzelne Missing Values ausschließen
Hallo,
alles klar, ich werde mal meine Arbeitsgruppe dazu befragen!
Grüße
alles klar, ich werde mal meine Arbeitsgruppe dazu befragen!
Grüße