Fehler identifizieren und entfernen

Wie rufe ich R-Funktionen auf, wie selektiere ich Daten, ich weiß nicht genau ....

Moderatoren: EDi, jogo

Antworten
evelyn92
Beiträge: 18
Registriert: Sa Feb 15, 2020 5:48 pm

Fehler identifizieren und entfernen

Beitrag von evelyn92 »

Hallo, liebe R-Freunde!

Ich habe folgenden Code für eine Grafik verwendet:

ggplot(data = subset.n(data_19[data_19$spec != "unknown" & !str_detect(data_19$notes,"knocked") & data_19$height_of_diam != "NA" & data_19$hod_dm < 130,],40,"spec"), aes(x = diameter, y = D130_sum )) +
geom_point() +
scale_color_gradient(low="blue", high="red") +
geom_abline(intercept = 0, slope= 1) +
stat_smooth(method = "lm", se = FALSE, color = "red") +
stat_regline_equation(label.x = 3, label.y = 32) +
facet_wrap(~ hod_dm)

Dabei hab ich gesehen, dass sich fehlerhafte Daten eingeschlichen haben. Wie kann ich diese identifizieren und aus der Analyse ausschließen?
Ich meine diesen einen Punkt in der Grafik unten links, der ganz unten ist, der verfälscht das Ergebnis. Der muss weg.
Durchmesserverhältnis von Messhöhe 130 zu niedrigeren Messhöhen.JPG

Dann hab ich noch folgende Warnmeldungen:
Warnmeldungen
Warnmeldungen

Wie kann ich die identifizieren, damit sie nicht mehr angezeigt werden?

Herzlichen Dank und guten Start ins Wochenende!
Eure Evy
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Fehler identifizieren und entfernen

Beitrag von bigben »

Hallo!

Deinen Code habe ich nicht ganz gelesen, aber das hier springt ins Auge:

Code: Alles auswählen

 data_19$height_of_diam != "NA" 
Willst Du da wirklich auf den String "NA" untersuchen oder auf fehlende Werte NA? Letzteres bitte mit der is.na()-Funktion.

Die Warnmeldungen kommen vielleicht von fehlenden Werten. Sollte man untersuchen, wäre dann aber eher nicht schlimm. Dein Ausreißer hat hot_dm == 90 und hat den kleinsten Wert von d130_sum. Damit sollten ein subset und ein which.min reichen, um ihn zu identifizieren.

LG, Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
evelyn92
Beiträge: 18
Registriert: Sa Feb 15, 2020 5:48 pm

Re: Fehler identifizieren und entfernen

Beitrag von evelyn92 »

Okay, super, danke!

Das mit den NA´s hab ich umgeändert und mit der von dir vorgeschlagenen Funktion gemacht. Danke für den Hinweis!

Brauch ich für die Identifikation von dem Ausreißer beides, ein subset UND ein wich.min ? Ich hab wich.min gegoogelt, aber bin noch immer unklar, wie ich das auf meine Daten anwenden kann. Wäre es möglich, dass du noch etwas konkreter wirst?

LG!
Evy
evelyn92
Beiträge: 18
Registriert: Sa Feb 15, 2020 5:48 pm

Re: Fehler identifizieren und entfernen

Beitrag von evelyn92 »

Ich hab die which.min funktion so angewendet:

Code: Alles auswählen

>  which.min(data_19$height_of_diam)
[1] 49
Mir scheint, dass es mir hier anzeigt wie oft der kleinste Wert in der Spalte height_of_diam vorkommt. Damit kann ich aber noch nix anfangen.
Zuletzt geändert von jogo am Mo Aug 03, 2020 9:38 am, insgesamt 1-mal geändert.
Grund: Formatierung verbessert. http://forum.r-statistik.de/viewtopic.php?f=20&t=29
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Fehler identifizieren und entfernen

Beitrag von bigben »

Nein, das zeigt an, dass in Zeile 49 der kleinste Wert von height_of_diam vorkommt.
Mein Gedanke war, dass Du Dir mit subset die Daten heraussuchst, die in dem Kästchen unten links ("90") stehen und von diesen Daten mit which.min herausfindest, in welcher Zeile der kleinste Wert von D130_sum steht. Das ist dann die Zeile mit Deinem Ausreißer.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
evelyn92
Beiträge: 18
Registriert: Sa Feb 15, 2020 5:48 pm

Re: Fehler identifizieren und entfernen

Beitrag von evelyn92 »

Alles klar, danke! Habs dann geschafft!
LG!
Antworten