Seite 1 von 3

Vergleich von Gruppen

Verfasst: Di Apr 17, 2018 11:41 am
von Maxx_BMT
Hallo liebes Forum,

vielleicht kann mir hier jemand helfen. Momentan versuche ich mich an vergleichender Statistik aber meine Recherchen waren bisher eher erfolglos. Daher die Frage in diesem Forum.

Das Problem:
Ich habe Daten bei denen ich mit einem Algorithmus Wandstärken in 3D erstellt habe und diese verschieden Wandstärken wurden mir dann als Vektoren ausgegeben, aufgrund der unterschiedlichen Größen der Proben habe ich auch Vektoren mit unterschiedlichen Längen. Diese Regionen möchte ich nun untereinander vergleichen, dass heißt ich möchte nun wissen ob sich bestimmte Regionen signifikant voneinander unterscheiden in ihrer Dicke.

Hat dazu jemand eine Idee bzw. welchen Test würdet ihr dafür verwenden?

Beispiel der Vektoren:

Vektor1 = a(1 2 3 4 4 4 5 2 3 1 4 5)
Vektor2 = b(3 5 6 2 3 1 2 3 )
Vektor3 = c(4 3 2 2 2 4 7 1 1 3 5 4 2 1 4 7 7)

Soll hier nur mal ein Beispiel sein, meine Vektoren sind enstprechend länger aber auch zu groß um sie hochzuladen. Ich möchte nun herausfinden, ob die Vektoren sich statistisch voneinander unterscheiden. Das Problem dabei ist meine Daten haben keine Normalverteilung und sind metrischer Natur.

Vielen Dank im Voraus.

LG
Maxx_BMT

Re: Vergleich von Gruppen

Verfasst: Di Apr 17, 2018 1:06 pm
von jogo
Hallo Maxx,

willkommen im Forum!
Maxx_BMT hat geschrieben: Di Apr 17, 2018 11:41 am Das Problem:
Ich habe Daten bei denen ich mit einem Algorithmus Wandstärken in 3D erstellt habe und diese verschieden Wandstärken wurden mir dann als Vektoren ausgegeben, aufgrund der unterschiedlichen Größen der Proben habe ich auch Vektoren mit unterschiedlichen Längen. Diese Regionen möchte ich nun untereinander vergleichen, dass heißt ich möchte nun wissen ob sich bestimmte Regionen signifikant voneinander unterscheiden in ihrer Dicke.

Hat dazu jemand eine Idee bzw. welchen Test würdet ihr dafür verwenden?

Beispiel der Vektoren:

Vektor1 = a(1 2 3 4 4 4 5 2 3 1 4 5)
Vektor2 = b(3 5 6 2 3 1 2 3 )
Vektor3 = c(4 3 2 2 2 4 7 1 1 3 5 4 2 1 4 7 7)

Soll hier nur mal ein Beispiel sein, meine Vektoren sind enstprechend länger aber auch zu groß um sie hochzuladen. Ich möchte nun herausfinden, ob die Vektoren sich statistisch voneinander unterscheiden. Das Problem dabei ist meine Daten haben keine Normalverteilung und sind metrischer Natur.
Also bei mir sind die Daten normalverteilt;
... wobei m.E. die Testerei auf Normalverteilung meistens Augenwischerei ist.

Code: Alles auswählen

Vektor1 = c(1, 2, 3, 4, 4, 4, 5, 2, 3, 1, 4, 5) 
Vektor2 = c(3, 5, 6, 2, 3, 1, 2, 3) 
Vektor3 = c(4, 3, 2, 2, 2, 4, 7, 1, 1, 3, 5, 4, 2, 1, 4, 7, 7) 

ks.test(Vektor1, pnorm, mean(Vektor1), sd(Vektor1))
ks.test(Vektor2, pnorm, mean(Vektor2), sd(Vektor2))
ks.test(Vektor3, pnorm, mean(Vektor3), sd(Vektor3))
Gruß, Jörg

Re: Vergleich von Gruppen

Verfasst: Di Apr 17, 2018 1:34 pm
von Maxx_BMT
Hallo,

danke für die Antwort und danke für das Willkommenheißen.

Das Problem ist, das waren nur Beispielvektoren (stark finde ich, da ich die nur mal so erstellt habe es normal verteile Daten sind :D ) meine Vektoren sind ein paar 100Mb groß und ich wollte sie daher nicht hochladen. Also wir reden über Vektoren mit einer Länge von 10 bis 20 Mio einträgen.

Ich bin auch etwas skeptisch was das Testen nach Normalverteilung anbetrifft, würde aber gern einen plausiblen Ansatz wählen wollen, den ich entsprechend begründen kann. Grundsätzlich wollte ich es mit einer ANOVA machen und die Gruppen miteinander vergleichen. Nun kommen ein paar Sachen aber zusammen ich habe (laut Test) keine normal verteilten Daten und ich messe an einem Individuum, was mir eine Abhängigkeit mit rein bringt (Spaltdicke am Zahn eines Mauslemuren). Daher sollte ich aufgrund der Def. keine Anova verwenden können, oder?

Vielen Dank für deine Hilfe
Maxx_BMT

Test für meine Daten:

Code: Alles auswählen


> ks.test(region1$V1, pnorm, mean(region1$V1), sd(region1$V1))

	One-sample Kolmogorov-Smirnov test

data:  region1$V1
D = 0.033748, p-value < 2.2e-16
alternative hypothesis: two-sided

Warning message:
In ks.test(region1$V1, pnorm, mean(region1$V1), sd(region1$V1)) :
  ties should not be present for the Kolmogorov-Smirnov test

Darstellung der Daten:
Verteilung der Daten für die erste Region
Verteilung der Daten für die erste Region

Re: Vergleich von Gruppen

Verfasst: Di Apr 17, 2018 7:23 pm
von EDi
Mit sovielen Daten wird jeder test signifikant.
Für mich sieht das normal genug aus.

Re: Vergleich von Gruppen

Verfasst: Mi Apr 18, 2018 10:53 am
von Maxx_BMT
Ich hab es fast vermutet. Das heißt ich sollte es eher qualitativ beschreiben? Weil wie du schon sagst alle Tests signifikant werden?

LG

Re: Vergleich von Gruppen

Verfasst: Mi Apr 18, 2018 11:47 am
von jogo
Es bedeutet, dass Du in üblicher Weise vorgehen kannst:

Code: Alles auswählen

t.test(Vektor1, Vektor2)
t.test(Vektor1, Vektor3)
t.test(Vektor2, Vektor3)
Aber bezogen auf das mögliche Ergebnis spielt natürlich die Aussage von EDi auch eine gewisse Rolle.

Gruß, Jörg

Re: Vergleich von Gruppen

Verfasst: Mi Apr 18, 2018 12:59 pm
von bigben
Hi!

Noch ein paar Gedanken dazu. Wenn das 10 bis 20 Mio Messwerte wären, dann würde ich EDi Recht geben, dass jeder Test signifikant wird. Da braucht man dann nicht nur keinen Test auf Normalvverteilung, sondern auch keinen t-Test und keine ANOVA mehr. Wenn ich es richtig verstanden habe, wurden diese Werte aber nicht gemessen, sondern berechnet, und bei Berechnungen können natürlich auch solche Datenmengen statistisch gleichwertig sein:

Code: Alles auswählen

> t.test(rnorm(10^7), rnorm(10^7))

	Welch Two Sample t-test

data:  rnorm(10^7) and rnorm(10^7)
t = 0.10695, df = 2e+07, p-value = 0.9148
Daher kann das Testen vielleicht ausnahmsweise bei so großen Datenmengen sinnvoll sein.
t-Test und ANOVA werden gegenüber der Normalverteilungsannahme sehr robust, wenn die Zahlen groß sind, und Deine Zahlen sind mehr als nur groß. Interessanter sind da Abweichungen von der Annahme gleicher Varianzen, wenn die Fallzahlen unterschiedlich sind. Ob das in diesen Größenordnungen noch eine Rolle spielt, weiß ich nicht, aber mindestens für den t-Test kann man das Problem mit der Welch-Korrektur als erledigt ansehen.

Also: Ja, Du darfst eine ANOVA, du darfst beliebig viele t-Tests durchführen, aber ein winziger p-Wert ist vorher schon fast sicher. Der niedrige p-Wert ist daher wenig interessant und die despkriptive Beschreibung (wie groß sind die Unterschiede) ist wichtiger als der p-Wert.

LG,
Bernhard

Re: Vergleich von Gruppen

Verfasst: Mi Apr 18, 2018 2:45 pm
von Maxx_BMT
Ah wunderbar, das bringt schon mal etwas Licht ins Dunkel. Jetzt noch eine letzte kleine Frage ich hab hier ja abhängige Daten da ich innerhalb eines Individuums gemessen habe (Spaltbreiten auf unterschiedlichen Niveaus). Das würde doch dann, da ich hier insgesamt 5 Gruppen vergleiche, auf eine RANOVA hinauslaufen?

@Bigben: Ja, die Daten wurden berechnet und zwar auf 3D Bilddaten. Da habe ich mit einem Algorithmus Spaltbreiten bestimmt und diese werden mit Pixeln repräsentiert und da ich große Bilddaten (50GB) habe, sind auch die berechneten Werte entsprechend groß (also ich habe dadurch entsprechend viele Messwerte, da ich viele Messpunkte bzw. Berechnungspunkte habe).

Vielen Dank! Ihr habt mir wirklich sehr geholfen.

Liebe Grüße,
Maxx_BMT

Re: Vergleich von Gruppen

Verfasst: Mi Apr 18, 2018 4:48 pm
von EDi
Ich weiß zwar nicht was eine RANOVA ist, würde aber ein mixed effects model vorschlagen (vorausgesetzt du hast mehrere Tiere pro Gruppe). Aber schwer zu sagen mit so wenig Infos.

Re: Vergleich von Gruppen

Verfasst: Mi Apr 18, 2018 6:16 pm
von bigben
Ich vermute mal, RANOVA soll eine Repeated Measures ANOVA sein. Ich würde auch eher zu einer Regression tendieren, das liegt aber daran, dass ich mich mit den ganzen ANOVA-Varianten nie so richtig beschäftigt habe.

LG,
Bernhard