Hallo, liebe R-Freunde!
Ich habe folgenden Code für eine Grafik verwendet:
ggplot(data = subset.n(data_19[data_19$spec != "unknown" & !str_detect(data_19$notes,"knocked") & data_19$height_of_diam != "NA" & data_19$hod_dm < 130,],40,"spec"), aes(x = diameter, y = D130_sum )) +
geom_point() +
scale_color_gradient(low="blue", high="red") +
geom_abline(intercept = 0, slope= 1) +
stat_smooth(method = "lm", se = FALSE, color = "red") +
stat_regline_equation(label.x = 3, label.y = 32) +
facet_wrap(~ hod_dm)
Dabei hab ich gesehen, dass sich fehlerhafte Daten eingeschlichen haben. Wie kann ich diese identifizieren und aus der Analyse ausschließen?
Ich meine diesen einen Punkt in der Grafik unten links, der ganz unten ist, der verfälscht das Ergebnis. Der muss weg.
Dann hab ich noch folgende Warnmeldungen:
Wie kann ich die identifizieren, damit sie nicht mehr angezeigt werden?
Herzlichen Dank und guten Start ins Wochenende!
Eure Evy
Fehler identifizieren und entfernen
Re: Fehler identifizieren und entfernen
Hallo!
Deinen Code habe ich nicht ganz gelesen, aber das hier springt ins Auge:
Willst Du da wirklich auf den String "NA" untersuchen oder auf fehlende Werte NA? Letzteres bitte mit der is.na()-Funktion.
Die Warnmeldungen kommen vielleicht von fehlenden Werten. Sollte man untersuchen, wäre dann aber eher nicht schlimm. Dein Ausreißer hat hot_dm == 90 und hat den kleinsten Wert von d130_sum. Damit sollten ein subset und ein which.min reichen, um ihn zu identifizieren.
LG, Bernhard
Deinen Code habe ich nicht ganz gelesen, aber das hier springt ins Auge:
Code: Alles auswählen
data_19$height_of_diam != "NA"
Die Warnmeldungen kommen vielleicht von fehlenden Werten. Sollte man untersuchen, wäre dann aber eher nicht schlimm. Dein Ausreißer hat hot_dm == 90 und hat den kleinsten Wert von d130_sum. Damit sollten ein subset und ein which.min reichen, um ihn zu identifizieren.
LG, Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Fehler identifizieren und entfernen
Okay, super, danke!
Das mit den NA´s hab ich umgeändert und mit der von dir vorgeschlagenen Funktion gemacht. Danke für den Hinweis!
Brauch ich für die Identifikation von dem Ausreißer beides, ein subset UND ein wich.min ? Ich hab wich.min gegoogelt, aber bin noch immer unklar, wie ich das auf meine Daten anwenden kann. Wäre es möglich, dass du noch etwas konkreter wirst?
LG!
Evy
Das mit den NA´s hab ich umgeändert und mit der von dir vorgeschlagenen Funktion gemacht. Danke für den Hinweis!
Brauch ich für die Identifikation von dem Ausreißer beides, ein subset UND ein wich.min ? Ich hab wich.min gegoogelt, aber bin noch immer unklar, wie ich das auf meine Daten anwenden kann. Wäre es möglich, dass du noch etwas konkreter wirst?
LG!
Evy
Re: Fehler identifizieren und entfernen
Ich hab die which.min funktion so angewendet:
Mir scheint, dass es mir hier anzeigt wie oft der kleinste Wert in der Spalte height_of_diam vorkommt. Damit kann ich aber noch nix anfangen.
Code: Alles auswählen
> which.min(data_19$height_of_diam)
[1] 49
Zuletzt geändert von jogo am Mo Aug 03, 2020 9:38 am, insgesamt 1-mal geändert.
Grund: Formatierung verbessert. http://forum.r-statistik.de/viewtopic.php?f=20&t=29
Grund: Formatierung verbessert. http://forum.r-statistik.de/viewtopic.php?f=20&t=29
Re: Fehler identifizieren und entfernen
Nein, das zeigt an, dass in Zeile 49 der kleinste Wert von height_of_diam vorkommt.
Mein Gedanke war, dass Du Dir mit subset die Daten heraussuchst, die in dem Kästchen unten links ("90") stehen und von diesen Daten mit which.min herausfindest, in welcher Zeile der kleinste Wert von D130_sum steht. Das ist dann die Zeile mit Deinem Ausreißer.
LG,
Bernhard
Mein Gedanke war, dass Du Dir mit subset die Daten heraussuchst, die in dem Kästchen unten links ("90") stehen und von diesen Daten mit which.min herausfindest, in welcher Zeile der kleinste Wert von D130_sum steht. Das ist dann die Zeile mit Deinem Ausreißer.
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Fehler identifizieren und entfernen
Alles klar, danke! Habs dann geschafft!
LG!
LG!