Seite 1 von 1

Fehler identifizieren und entfernen

Verfasst: Fr Jul 03, 2020 2:30 pm
von evelyn92
Hallo, liebe R-Freunde!

Ich habe folgenden Code für eine Grafik verwendet:

ggplot(data = subset.n(data_19[data_19$spec != "unknown" & !str_detect(data_19$notes,"knocked") & data_19$height_of_diam != "NA" & data_19$hod_dm < 130,],40,"spec"), aes(x = diameter, y = D130_sum )) +
geom_point() +
scale_color_gradient(low="blue", high="red") +
geom_abline(intercept = 0, slope= 1) +
stat_smooth(method = "lm", se = FALSE, color = "red") +
stat_regline_equation(label.x = 3, label.y = 32) +
facet_wrap(~ hod_dm)

Dabei hab ich gesehen, dass sich fehlerhafte Daten eingeschlichen haben. Wie kann ich diese identifizieren und aus der Analyse ausschließen?
Ich meine diesen einen Punkt in der Grafik unten links, der ganz unten ist, der verfälscht das Ergebnis. Der muss weg.
Durchmesserverhältnis von Messhöhe 130 zu niedrigeren Messhöhen.JPG

Dann hab ich noch folgende Warnmeldungen:
Warnmeldungen
Warnmeldungen

Wie kann ich die identifizieren, damit sie nicht mehr angezeigt werden?

Herzlichen Dank und guten Start ins Wochenende!
Eure Evy

Re: Fehler identifizieren und entfernen

Verfasst: Fr Jul 03, 2020 2:48 pm
von bigben
Hallo!

Deinen Code habe ich nicht ganz gelesen, aber das hier springt ins Auge:

Code: Alles auswählen

 data_19$height_of_diam != "NA" 
Willst Du da wirklich auf den String "NA" untersuchen oder auf fehlende Werte NA? Letzteres bitte mit der is.na()-Funktion.

Die Warnmeldungen kommen vielleicht von fehlenden Werten. Sollte man untersuchen, wäre dann aber eher nicht schlimm. Dein Ausreißer hat hot_dm == 90 und hat den kleinsten Wert von d130_sum. Damit sollten ein subset und ein which.min reichen, um ihn zu identifizieren.

LG, Bernhard

Re: Fehler identifizieren und entfernen

Verfasst: Sa Jul 04, 2020 12:33 pm
von evelyn92
Okay, super, danke!

Das mit den NA´s hab ich umgeändert und mit der von dir vorgeschlagenen Funktion gemacht. Danke für den Hinweis!

Brauch ich für die Identifikation von dem Ausreißer beides, ein subset UND ein wich.min ? Ich hab wich.min gegoogelt, aber bin noch immer unklar, wie ich das auf meine Daten anwenden kann. Wäre es möglich, dass du noch etwas konkreter wirst?

LG!
Evy

Re: Fehler identifizieren und entfernen

Verfasst: Sa Jul 04, 2020 3:35 pm
von evelyn92
Ich hab die which.min funktion so angewendet:

Code: Alles auswählen

>  which.min(data_19$height_of_diam)
[1] 49
Mir scheint, dass es mir hier anzeigt wie oft der kleinste Wert in der Spalte height_of_diam vorkommt. Damit kann ich aber noch nix anfangen.

Re: Fehler identifizieren und entfernen

Verfasst: Sa Jul 04, 2020 6:43 pm
von bigben
Nein, das zeigt an, dass in Zeile 49 der kleinste Wert von height_of_diam vorkommt.
Mein Gedanke war, dass Du Dir mit subset die Daten heraussuchst, die in dem Kästchen unten links ("90") stehen und von diesen Daten mit which.min herausfindest, in welcher Zeile der kleinste Wert von D130_sum steht. Das ist dann die Zeile mit Deinem Ausreißer.

LG,
Bernhard

Re: Fehler identifizieren und entfernen

Verfasst: Sa Aug 01, 2020 11:26 am
von evelyn92
Alles klar, danke! Habs dann geschafft!
LG!