weiß jemand, wie ich am besten bei einem großen Datensatz Ausreißer mit R-Studio bestimmen kann?
Danke schonmal im Voraus für Eure Hilfe

Code: Alles auswählen
set.seed(as.Date("30-03-2020"))
messungen <- c(10*rbeta(100, 1,5), 9.5,10)
plot(density(messungen), ylim=c(0,.9), main="")
boxplot(messungen, horizontal = TRUE, at=.7, add=TRUE, boxwex = .5)
rug(messungen)
Code: Alles auswählen
boxplot(messungen, plot = FALSE)$out
hast Du recht, ich meine natürlich Extremwert im Kontext "Statistik"."Extremwert" finde ich schwierig - bei der Kurvendiskussion im Mathematikunterricht waren das lokale Maximum und das lokale Minimum Extremwerte.
( http://www.statistik-forum.de/post26808.html )Die von Dir aufgeworfene Frage ist hoch komplex und kann nicht mit einem simplen Schema beantwortet werden. Extreme Werte können unsinnig entstandene Werte sein (Messwert falsch auf den Erhebungsbogen übertragen) oder das Ergebnis einer tatsächlichen Streuung der Messgröße sein. In Fukushima hatte man Mauern gegen 5,5m hohe Wellen gebaut. Dann kam die 10m hohe Welle. Sie war ein Extremwert, aber einer, den das Meer tatsächlich produziert hat. Die 10m Welle war real und es wäre verfälschend, sie aus den Archiven streichen zu wollen. Hätte aber jemand versehentlich eine 10cm Welle als 10m Welle dokumentiert, dann müsste man diesen offensichlich falschen Wert aus den Messungen streichen. Das hat gar nichts damit zu tun, welchen z-Wert eine 10m-Welle vor Fukushima hat.
Es muss also um die Frage gehen, wie es am wahrscheinlichsten zu den extremen Werten gekommen ist und ob man den kleineren Fehler macht, wenn man sie streicht oder ob man den kleineren Fehler macht, wenn man sie drin lässt (eine zu hohe Mauer für Fukushima wäre teuer gewesen. Eine zu niedrige war fatal). Ohne Sachkunde in Ozeanographie, Hydrologie, Physik und Katastrophenschutz lässt sich die Frage nach der angemessenen Mauerhöhe nicht beantworten. Auch wir werden Deine Frage nicht beantworten können, ohne die Hintergründe genauestens zu kennen. Ohne sachwissenschaftlichen Hintergrund kann man Dir da nicht anständig raten.
bigben hat geschrieben: Mo Mär 30, 2020 7:58 am Manche verwenden die Definition aus dem Boxplot. Kommt das für Dich infrage?
Tom hat geschrieben: Mo Mär 30, 2020 4:30 pmbigben hat geschrieben: Mo Mär 30, 2020 7:58 am Manche verwenden die Definition aus dem Boxplot. Kommt das für Dich infrage?
Danke für Eure schnellen Antworten. Mein Problem ist hauptsächlich, dass ich die Ausreißer nicht grafisch erkennen kann, weil ich bspw. für ein Scatterplot oder Boxplot zu viele "Datenpunkte" habe, sodass mir dann überhaupt nichts angezeigt wird (stattdessen erhalte ich eine Fehlermeldung, dass es aufgrund der Datenmenge nicht angezeigt werden kann). Bei kleineren Datenmengen weiß ich, wie sich Ausreißer am besten erkennen lassen, allerdings besteht meine Variable aus über 2000 Fällen...
Code: Alles auswählen
x <- rlnorm(100000000)
bp <- boxplot(x, plot = FALSE)
bp$stats
Mir ist so, als ob Du meine Frage nicht beantwortet hast. Einen Boxplot von 2000 Fällen zeichnet R schneller als Du blinzeln kannstTom hat geschrieben: Mo Mär 30, 2020 4:30 pmbigben hat geschrieben: Mo Mär 30, 2020 7:58 am Manche verwenden die Definition aus dem Boxplot. Kommt das für Dich infrage?
Danke für Eure schnellen Antworten. Mein Problem ist hauptsächlich, dass ich die Ausreißer nicht grafisch erkennen kann, weil ich bspw. für ein Scatterplot oder Boxplot zu viele "Datenpunkte" habe, sodass mir dann überhaupt nichts angezeigt wird (stattdessen erhalte ich eine Fehlermeldung, dass es aufgrund der Datenmenge nicht angezeigt werden kann). Bei kleineren Datenmengen weiß ich, wie sich Ausreißer am besten erkennen lassen, allerdings besteht meine Variable aus über 2000 Fällen...
Code: Alles auswählen
boxplot(rnorm(2000))
Versuch bitte mal folgenden Codezu viele "Datenpunkte" habe, sodass mir dann überhaupt nichts angezeigt wird
Code: Alles auswählen
plot(rnorm(2000), rnorm(2000), col="#000000A0", pch=16)
ist wirklich kein großer Datensatz. Ich habe mal einen Boxplot mit Beobachtungen aus einem meiner Lieblingsspieldatensätze gemacht. Er besteht aus 6497 Beobachtungen z. B. für das Merkmal Alkohol. Der Boxplot zeigt mit den Standardparametern 3 Extremwerte. Diese Extremwerte sind aber keine Ausreißer, sondern wesentliche Informationen und dürfen nicht einfach entfernt werden (Grafik Tabelle). Mögliche Maßnahmen will ich gar nicht beschreiben...allerdings besteht meine Variable aus über 2000 Fällen...