Nur einzelne Missing Values ausschließen

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
Geostudentin
Beiträge: 5
Registriert: Do Dez 24, 2020 1:13 pm

Nur einzelne Missing Values ausschließen

Beitrag von Geostudentin »

Hallo ihr Lieben,

erstmal frohe Weihnachten euch allen! Habt schöne Feiertage!

Ich erstelle zur Zeit im Rahmen des Studiums einen komplexen Indikator in R zum Thema Bildung in der EU. Nun habe ich im gesamten Datensatz 4 fehlende Werte über verschieden Variablen verteilt. Wenn ich die NAs wie gewohnt löschen will, wird ein ganzes Land ausgeschlossen und nicht nur der eine fehlende Wert. Das ist natürlich fatal, wenn ich vier Länder der EU komplett verliere. Gibt es da eine Lösung nur einzelne Werte auszuschließen und nicht die ganze Reihe? Ich habe vom Befehl na.rm=TRUE gelesen. Aber wenn ich jetzt beispielsweise die PCA nach der Standardiesierung durchführen will mit dem Code Bildung_pca <- prcomp(Bildung_zvars, na.rm=TRUE), kommt die Fehlermeldung, dass der Befehl na.rm=TRUE unberücksichtigt bleibt. Mein Problem bezieht sich aber darauf, wie ich die NAs aus allen Berechnungen ausschließen kann, nicht nur bei der PCA.


Vielleicht weiß ja jemand was dazu!

Grüße
jogo
Beiträge: 2086
Registriert: Fr Okt 07, 2016 8:25 am

Re: Nur einzelne Missing Values ausschließen

Beitrag von jogo »

Hallo Geostudentin,

willkommen im Forum!
- und auch Dir, hohoho, schöne Feiertage!
Geostudentin hat geschrieben: Do Dez 24, 2020 1:27 pm Ich habe vom Befehl na.rm=TRUE gelesen.
na.rm=TRUE ist kein Befehl sondern ein Parameter in verschiedenen Funktionen, die dann entsprechend damit umgehen sollen.
Aber wenn ich jetzt beispielsweise die PCA nach der Standardisierung durchführen will mit dem Code Bildung_pca <- prcomp(Bildung_zvars, na.rm=TRUE), kommt die Fehlermeldung, dass der Befehl na.rm=TRUE unberücksichtigt bleibt. Mein Problem bezieht sich aber darauf, wie ich die NAs aus allen Berechnungen ausschließen kann, nicht nur bei der PCA.
Offensichtlich hat die Funktion prcomp() keinen Parameter mit dem Namen na.rm= ... so beschreibt es zumindest der Hilfetext der Funktion

Code: Alles auswählen

help(prcomp)
Ich glaube, Du solltest auf Deinen Dataframe die Funktion na.omit() anwenden und dann erst prcomp().
Kannst Du bitte trotzdem den Output von folgenden Funktionen posten?

Code: Alles auswählen

str(Bildung_zvars)
summary(Bildung_zvars)
Gruß, Jörg
Geostudentin
Beiträge: 5
Registriert: Do Dez 24, 2020 1:13 pm

Re: Nur einzelne Missing Values ausschließen

Beitrag von Geostudentin »

Hallo Jörg,

vielen Dank für diese schnelle Rückmeldung!

Hier mal der Output:

Code: Alles auswählen

Abschluss ter.V1       Abbrechende.V1         Sprachen.V1     
 Min.   :-1.9625638    Min.   :-1.5328609     Min.   :-1.7614624  
 1st Qu.:-0.8479935    1st Qu.:-0.6039701     1st Qu.:-0.7331492  
 Median : 0.1556743    Median :-0.1653273    Median : 0.2951640  
 Mean   : 0.0000000    Mean   : 0.0000000     Mean   : 0.0000000  
 3rd Qu.: 0.5271977    3rd Qu.: 0.3894269    3rd Qu.: 0.5522423  
 Max.   : 1.6972193    Max.   : 2.1568997     Max.   : 2.3517903  
                                                               
    Pisa_Lesen.V1         Pisa_NTW.V1         Pisa_Mathe.V1    
 Min.   :-1.3850284   Min.   :-1.6252162   Min.   :-1.5316245  
 1st Qu.:-0.6254774   1st Qu.:-0.5218188   1st Qu.:-0.5686701  
 Median :-0.2537822   Median :-0.3277540   Median :-0.0399319  
 Mean   : 0.0000000   Mean   : 0.0000000   Mean   : 0.0000000  
 3rd Qu.: 0.3603229   3rd Qu.: 0.3209771   3rd Qu.: 0.6881596  
 Max.   : 2.4935300   Max.   : 2.5554953   Max.   : 2.9500428  
                                                               
     erw_Dauer.V1        durch_Dauer.V1        LS_Schule.V1    
 Min.   :-1.4327856   Min.   :-2.5981416   Min.   :-1.4692585  
 1st Qu.:-0.7699549   1st Qu.:-0.6154413   1st Qu.:-0.7504367  
Median :-0.2276388   Median : 0.3287016   Median :-0.3011730  
 Mean   : 0.0000000   Mean   : 0.0000000   Mean   : 0.0000000  
 3rd Qu.: 0.6460926   3rd Qu.: 0.6119445   3rd Qu.: 0.7995229  
 Max.   : 1.8813680   Max.   : 2.0281590   Max.   : 2.1697770  

 LS_UNI.V1          L_Anteil.V1         Ausgaben_B.V1    
 Min.   :-1.684959   Min.   :-1.6327666   Min.   :-1.7840085  
 1st Qu.:-0.495036   1st Qu.:-0.5632688   1st Qu.:-0.6913033  
 Median :-0.095650   Median :-0.2067696   Median :-0.1784008  
 Mean   : 0.000000   Mean   : 0.0000000   Mean   : 0.0000000  
 3rd Qu.: 0.147276   3rd Qu.: 0.1497297   3rd Qu.: 0.5129024  
 Max.   : 3.964087   Max.   : 2.6452245   Max.   : 2.3192110  
 NA's   :1           NA's   :2            NA's   :1           
  

  Ausgaben_FE.V1   
 Min.   :-1.2687790  
 1st Qu.:-0.8295863  
 Median :-0.2805954  
 Mean   : 0.0000000  
 3rd Qu.: 0.5977901
Max.   : 1.9153683  



Grüße
Zuletzt geändert von jogo am Do Dez 24, 2020 3:53 pm, insgesamt 1-mal geändert.
Grund: Formatierung verbessert, siehe http://forum.r-statistik.de/viewtopic.php?f=20&t=29
Geostudentin
Beiträge: 5
Registriert: Do Dez 24, 2020 1:13 pm

Re: Nur einzelne Missing Values ausschließen

Beitrag von Geostudentin »

Hallo nochmal,

also ich habe na.omit genutzt, aber dann habe ich wieder das Problem, dass das komplette Land gelöscht wird, in dem der fehlende Wert auftaucht, obwohl ich nur einen fehlenden Wert entfernen möchte.

Grüße
jogo
Beiträge: 2086
Registriert: Fr Okt 07, 2016 8:25 am

Re: Nur einzelne Missing Values ausschließen

Beitrag von jogo »

Hallo Geostudentin,
Geostudentin hat geschrieben: Do Dez 24, 2020 4:10 pm also ich habe na.omit genutzt, aber dann habe ich wieder das Problem, dass das komplette Land gelöscht wird, in dem der fehlende Wert auftaucht, obwohl ich nur einen fehlenden Wert entfernen möchte.
das kann ich mir vorstellen.
Die entscheidende Frage ist:
was erwartest Du, wie mit den fehlenden Werten umgegangen werden soll?
Du hast pro Land eine Beobachtung in den entsprechenden Variablen.

Gruß, Jörg
Geostudentin
Beiträge: 5
Registriert: Do Dez 24, 2020 1:13 pm

Re: Nur einzelne Missing Values ausschließen

Beitrag von Geostudentin »

Hallo Jörg,

ich hatte die Hoffnung, dass nicht das ganze Land für alle Berechnungen rausfällt. Wenn z.b für Irland ein Wert für die Bildungsausgaben fehlt, hatte ich gehofft, dass Irland trotzdem in der Tabelle bleibt. Ansonsten muss ich wohl damit leben und diese Länder rausschmeißen oder andere Einzelindikatoren finden.

Vielen Dank für die Unterstützung!

Grüße
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Nur einzelne Missing Values ausschließen

Beitrag von EDi »

Naja, du könntest auch Spalten mit vielen missing ausschließen aus der PCA, dann fallen auch nicht so viele Zeilen weg.

Bei einer PCA kann man auch mit mean-Imputation arbeiten, weil der Mittelwert hat wenig Einfluss auf die PCA.... Aber auch hier macht es wenig Sinn Spalten zu imputieren bei denen der Großteil fehlt.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Geostudentin
Beiträge: 5
Registriert: Do Dez 24, 2020 1:13 pm

Re: Nur einzelne Missing Values ausschließen

Beitrag von Geostudentin »

Hallo,

alles klar, ich werde mal meine Arbeitsgruppe dazu befragen!

Grüße
Antworten