Seite 1 von 2

Grafische Darstellung Spearman-Korrelation

Verfasst: Di Mai 29, 2018 8:35 pm
von Tobifragt
Hallo Community :D

ich bin R Beginner und tue mich leider mit dem Einstieg ein wenig schwer.
Es geht um den folgenden Sachverhalt..

Ich möchte den Zusammenhang zwischen zwei numerischen Variablen ermitteln und mit einer geeigneten Grafik darstellen.
Da der vorliegende Datensatz nicht normalverteilt ist, habe ich mich für die Spearman-Methode zur Ermittlung des Korrelationskoeffizienten entschieden und einen entsprechen rho erhalten.

Bei der grafischen Darstellung komme ich jedoch nicht weiter..
Normale Boxplots sind aufgrund der Datensatzgröße zu unübersichtlich.

Habt ihr eine gute Formel für mich auf Lager? :?: :)
Ich habe etwas von spearman.plot gelesen, jedoch erscheint hierbei immer eine Fehlermeldung.

Vielen Dank im Voraus und lieben Gruß,
Tobi G.

Re: Grafische Darstellung Spearman-Korrelation

Verfasst: Di Mai 29, 2018 9:03 pm
von EDi
Normale Boxplots sind aufgrund der Datensatzgröße zu unübersichtlich.
Boxplots eignen sich nur bedingt um Korrelationen darzustellen. Über wieviele Daten Punkte sprechen wir?

Scatterplot mit semi-transparenten Punkten, kontouren der 2D Dichte und hexbin fallen mir spontan für große Datenmengen ein. Geht alles mit ggplot2.

Re: Grafische Darstellung Spearman-Korrelation

Verfasst: Di Mai 29, 2018 9:56 pm
von consuli

Re: Grafische Darstellung Spearman-Korrelation

Verfasst: Mi Mai 30, 2018 1:17 pm
von bigben
Die Antworten auf EDi und consuli beschreiben den Normalfall, dass man die Werte aufträgt und dann einen Blick für Korrelation gewinnt. Da ist dem visuellen Eindruck die Pearson-Korrelation aber näher als die Spearman-Korrelation. Für letztere könnte man sich vorstellen, Ränge statt Werten abzutragen, aber das ist eher ungewöhnlich.
Eine Grafik für unübersichtlich große Datenmengen zu empfehlen, ohne eine Ahnung zu haben, wie groß die Datenmengen sind und ob die Daten ordinal oder metrisch sind und wenn ordinal, in wievielen Kategorien, ist nicht sinnvoll.

LG,
Bernhard

Re: Grafische Darstellung Spearman-Korrelation

Verfasst: Mi Mai 30, 2018 5:07 pm
von consuli
bigben hat geschrieben: Mi Mai 30, 2018 1:17 pm Die Antworten auf EDi und consuli beschreiben den Normalfall, dass man die Werte aufträgt und dann einen Blick für Korrelation gewinnt. Da ist dem visuellen Eindruck die Pearson-Korrelation aber näher als die Spearman-Korrelation. Für letztere könnte man sich vorstellen, Ränge statt Werten abzutragen, aber das ist eher ungewöhnlich.
Die Spearman Rangkorrelation ist genau eine Pearson Korrelation für Ränge.
https://de.wikipedia.org/wiki/Rangkorrelationskoeffizient#Spearmans_Rangkorrelationskoeffizient hat geschrieben: Im Prinzip ist ρ ein Spezialfall von Pearsons Produkt-Moment-Korrelationskoeffizient, bei dem die Daten in Ränge konvertiert werden, bevor der Korrelationskoeffizient berechnet wird.
Consuli

Re: Grafische Darstellung Spearman-Korrelation

Verfasst: Mi Mai 30, 2018 9:27 pm
von bigben
Ich weiß, deshalb ja der Gedanke, dass man das auch in eine Visualisierung übertragen können müsste. Habe das aber im echten Leben noch nicht gesehen.

B

Re: Grafische Darstellung Spearman-Korrelation

Verfasst: Mi Mai 30, 2018 9:58 pm
von consuli
bigben hat geschrieben: Mi Mai 30, 2018 9:27 pm Ich weiß, deshalb ja der Gedanke, dass man das auch in eine Visualisierung übertragen können müsste. Habe das aber im echten Leben noch nicht gesehen.
Ja, da haben wir mal eine schöne mathematische Frage für unseren Forum-Mathematiker Athomas, ob die Pearsonsche Momenten-Produkt-Summe

rho= 1/n * Summe [ (x- E(x))/ s(x) * (y-E(y)) / s(y) ]

mit
E(x): Erwartungswert von x
s(x): Standardabweichung von x

den Wert 1 erreichen kann,

wenn x und y Ränge sind.

Consuli

Re: Grafische Darstellung Spearman-Korrelation

Verfasst: Do Mai 31, 2018 8:03 am
von bigben
Hä?

Re: Grafische Darstellung Spearman-Korrelation

Verfasst: Do Mai 31, 2018 11:08 am
von consuli
Unsere Ausgangsfrage war doch, ob man als Repräsentation des Spearman-Rangkorrelationskoefizienten Ränge in einem x-y-Scatterplot auftragen kann und diesen Scatterplot von Rängen dann genauso interpretieren könnte, wie einen Scatterplott von intervallskalierten Merkmalen, richtig?

Aus dieser Frage ergeben sich m.E. zwei Unterfragen:

Unterfrage A)
Kann der Spearman-Rangkorrelationskoeffizient den Maximalwert 1 erreichen? (Z.B. das verallgemeinerte R^2 nach Cox/Snell kann das nicht)

Und da wir ja wissen, dass die Spearman Rangkorrelation eine verkappte Person Korrelation auf Rängen ist, bei der man wie folgt umformen kann,

rho= Cov(x, y) / (s(x)* s(y))
<=>
rho= 1/ n* Summe [(x-E(x)) * (y-(E(x))] / (s(x)* s(y))
<=>
rho= 1/n * Summe [ (x- E(x))/ s(x) * (y-E(y)) / s(y) ]

[<=> rho= Cov(x /s(x), y /(s(y)) ]


mit
E(x): Erwartungswert von x
s(x): Standardabweichung von x
Summe: Summationsoperator

kann man diese Frage zurückführen auf:


Kann

rho= 1/n * Summe [ (x- E(x))/ s(x) * (y-E(y)) / s(y) ]

den Wert 1 erreichen kann, wenn x und y Ränge sind?


Meine Vermutung wäre, dass die Spearman Korrelation nur dann den Wert 1 erreichen kann, wenn es keine doppelt besetzten Ränge gibt (keine gleichrangigen Beobachtungen). In Fällen wie diesem ist es aber immer besser, einen Mathematiker zu Rate zu ziehen.


Unterfrage B)
Wenn man nun Ränge in dem x-y-Scatterplot aufträgt (anstatt Intervalskala), darf man den Scatterplot dann noch mit dem einer bivariaten Normalverteilung vergleichen ? (was man ja implizit tut, wenn man Intervalskala aufträgt)

Und da hört es im Moment gerade bei mir auf. -> Mathematiker zu Rate ziehen.


Consuli

Re: Grafische Darstellung Spearman-Korrelation

Verfasst: Do Mai 31, 2018 2:07 pm
von bigben
consuli hat geschrieben: Do Mai 31, 2018 11:08 amUnterfrage A)
Kann der Spearman-Rangkorrelationskoeffizient den Maximalwert 1 erreichen?

Code: Alles auswählen

> x <- 1:10
> y <- 2:11
> cor(x,y, method="spearman")
[1] 1
Ja.
consuli hat geschrieben: Do Mai 31, 2018 11:08 amMeine Vermutung wäre, dass die Spearman Korrelation nur dann den Wert 1 erreichen kann, wenn es keine doppelt besetzten Ränge gibt (keine gleichrangigen Beobachtungen).

Code: Alles auswählen

> # alle Ränge dreifach besetzt
> cor(rep(x,3), rep(y,3), method="spearman")
[1] 1
Nein.
consuli hat geschrieben: Do Mai 31, 2018 11:08 ammit dem einer bivariaten Normalverteilung vergleichen ? (was man ja implizit tut, wenn man Intervalskala aufträgt)
Tut man das? Also ich würde Scatterplots auch von Daten zeichnen und betrachten, für die Normalität von vorneherein ausgeschlossen ist. Tobifragt schreibt ja schon in der Aufgabenstellung, dass seine Daten nicht normal verteilt sind. Und wenn er von Boxplots spricht, dann dürfte die eine Achse diskret verteilt sein und damit dann von vorneherein nicht normal.

LG,
Bernhard