Outlier Detection bei großer Datenmenge

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Tom
Beiträge: 20
Registriert: Mi Nov 13, 2019 4:21 pm

Re: Outlier Detection bei großer Datenmenge

Beitrag von Tom »

bigben hat geschrieben: Di Mär 31, 2020 9:30 am


Code: Alles auswählen

plot(rnorm(2000), rnorm(2000), col="#000000A0", pch=16)
und ändere Deine Meinung darüber, ob R 2000 Datenpunkte zeichnen kann oder poste wörtlich die dabei entstehende Fehlermeldung.


Also nochmal: Ist der Boxplot-Algorithmus (mehr als 1,5 IQR entfernt vom Median) für Dich inhaltlich brauchbar?

Ja, das funktioniert sehr gut mit dem Code, da hast du mich durchaus überzeugt ;) Und ja, der Boxplot-Algorithmus ist für mich inhaltlich sinnvoll.
Das grafische Problem (Fehlermeldung) hatte ich auch mit einem Scatterplot, aber wahrscheinlich geht das auch damit. Ich schaue mir das jetzt mal mit dem Boxplot an und gebe dann nochmal Feedback. Danke auf jeden Fall schonmal für die ausführlichen Antworten.

Beste Grüße
Tom
bigben
Beiträge: 2780
Registriert: Mi Okt 12, 2016 9:09 am

Re: Outlier Detection bei großer Datenmenge

Beitrag von bigben »

Denk dran, dass Du range herauf- oder herunter setzen kannst, je nachdem, wie streng Du sein willst.
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
ruedi_br
Beiträge: 159
Registriert: Do Mär 01, 2018 3:53 pm

Re: Outlier Detection bei großer Datenmenge

Beitrag von ruedi_br »

Hallo zusammen,
bei den Beispielen war die Verteilungsfunktion ja einigermaßen Gauss(isch/iesk/ wie auch immer) mit tatsächlich einigen wenigen Extremwerten. Für mich wäre der DIchteplot im Gegensatz zum boxplot einiges aussagefähiger: ist die Verteilung 2- oder mehrgipflig?
Ansonsten stimmt es natürlich: alleine die Sachkunde im verdateten Bereich kann entscheiden, ob es sich um einen plausiblen Extremwert handelt oder nicht.
Grüße
Ruedi
fortune(111)
bigben
Beiträge: 2780
Registriert: Mi Okt 12, 2016 9:09 am

Re: Outlier Detection bei großer Datenmenge

Beitrag von bigben »

Sicher richtig, dass Dichte-Plots mehr sagen als Boxplots und ich habe ja auch nicht zu wenig Dichteverteilungen gezeichnet, in diesem Thread. Dass eine Dichteverteilung aber mit einer Regel zur automatischen Ausreißererkennung käme, wäre mir neu.

LG, Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten