Vergleich von Gruppen

Alles zum Thema der beschreibenden Statistik

Moderator: jogo

Maxx_BMT

Vergleich von Gruppen

Beitrag von Maxx_BMT »

Hallo liebes Forum,

vielleicht kann mir hier jemand helfen. Momentan versuche ich mich an vergleichender Statistik aber meine Recherchen waren bisher eher erfolglos. Daher die Frage in diesem Forum.

Das Problem:
Ich habe Daten bei denen ich mit einem Algorithmus Wandstärken in 3D erstellt habe und diese verschieden Wandstärken wurden mir dann als Vektoren ausgegeben, aufgrund der unterschiedlichen Größen der Proben habe ich auch Vektoren mit unterschiedlichen Längen. Diese Regionen möchte ich nun untereinander vergleichen, dass heißt ich möchte nun wissen ob sich bestimmte Regionen signifikant voneinander unterscheiden in ihrer Dicke.

Hat dazu jemand eine Idee bzw. welchen Test würdet ihr dafür verwenden?

Beispiel der Vektoren:

Vektor1 = a(1 2 3 4 4 4 5 2 3 1 4 5)
Vektor2 = b(3 5 6 2 3 1 2 3 )
Vektor3 = c(4 3 2 2 2 4 7 1 1 3 5 4 2 1 4 7 7)

Soll hier nur mal ein Beispiel sein, meine Vektoren sind enstprechend länger aber auch zu groß um sie hochzuladen. Ich möchte nun herausfinden, ob die Vektoren sich statistisch voneinander unterscheiden. Das Problem dabei ist meine Daten haben keine Normalverteilung und sind metrischer Natur.

Vielen Dank im Voraus.

LG
Maxx_BMT
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Vergleich von Gruppen

Beitrag von jogo »

Hallo Maxx,

willkommen im Forum!
Maxx_BMT hat geschrieben: Di Apr 17, 2018 11:41 am Das Problem:
Ich habe Daten bei denen ich mit einem Algorithmus Wandstärken in 3D erstellt habe und diese verschieden Wandstärken wurden mir dann als Vektoren ausgegeben, aufgrund der unterschiedlichen Größen der Proben habe ich auch Vektoren mit unterschiedlichen Längen. Diese Regionen möchte ich nun untereinander vergleichen, dass heißt ich möchte nun wissen ob sich bestimmte Regionen signifikant voneinander unterscheiden in ihrer Dicke.

Hat dazu jemand eine Idee bzw. welchen Test würdet ihr dafür verwenden?

Beispiel der Vektoren:

Vektor1 = a(1 2 3 4 4 4 5 2 3 1 4 5)
Vektor2 = b(3 5 6 2 3 1 2 3 )
Vektor3 = c(4 3 2 2 2 4 7 1 1 3 5 4 2 1 4 7 7)

Soll hier nur mal ein Beispiel sein, meine Vektoren sind enstprechend länger aber auch zu groß um sie hochzuladen. Ich möchte nun herausfinden, ob die Vektoren sich statistisch voneinander unterscheiden. Das Problem dabei ist meine Daten haben keine Normalverteilung und sind metrischer Natur.
Also bei mir sind die Daten normalverteilt;
... wobei m.E. die Testerei auf Normalverteilung meistens Augenwischerei ist.

Code: Alles auswählen

Vektor1 = c(1, 2, 3, 4, 4, 4, 5, 2, 3, 1, 4, 5) 
Vektor2 = c(3, 5, 6, 2, 3, 1, 2, 3) 
Vektor3 = c(4, 3, 2, 2, 2, 4, 7, 1, 1, 3, 5, 4, 2, 1, 4, 7, 7) 

ks.test(Vektor1, pnorm, mean(Vektor1), sd(Vektor1))
ks.test(Vektor2, pnorm, mean(Vektor2), sd(Vektor2))
ks.test(Vektor3, pnorm, mean(Vektor3), sd(Vektor3))
Gruß, Jörg
Maxx_BMT

Re: Vergleich von Gruppen

Beitrag von Maxx_BMT »

Hallo,

danke für die Antwort und danke für das Willkommenheißen.

Das Problem ist, das waren nur Beispielvektoren (stark finde ich, da ich die nur mal so erstellt habe es normal verteile Daten sind :D ) meine Vektoren sind ein paar 100Mb groß und ich wollte sie daher nicht hochladen. Also wir reden über Vektoren mit einer Länge von 10 bis 20 Mio einträgen.

Ich bin auch etwas skeptisch was das Testen nach Normalverteilung anbetrifft, würde aber gern einen plausiblen Ansatz wählen wollen, den ich entsprechend begründen kann. Grundsätzlich wollte ich es mit einer ANOVA machen und die Gruppen miteinander vergleichen. Nun kommen ein paar Sachen aber zusammen ich habe (laut Test) keine normal verteilten Daten und ich messe an einem Individuum, was mir eine Abhängigkeit mit rein bringt (Spaltdicke am Zahn eines Mauslemuren). Daher sollte ich aufgrund der Def. keine Anova verwenden können, oder?

Vielen Dank für deine Hilfe
Maxx_BMT

Test für meine Daten:

Code: Alles auswählen


> ks.test(region1$V1, pnorm, mean(region1$V1), sd(region1$V1))

	One-sample Kolmogorov-Smirnov test

data:  region1$V1
D = 0.033748, p-value < 2.2e-16
alternative hypothesis: two-sided

Warning message:
In ks.test(region1$V1, pnorm, mean(region1$V1), sd(region1$V1)) :
  ties should not be present for the Kolmogorov-Smirnov test

Darstellung der Daten:
Verteilung der Daten für die erste Region
Verteilung der Daten für die erste Region
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Vergleich von Gruppen

Beitrag von EDi »

Mit sovielen Daten wird jeder test signifikant.
Für mich sieht das normal genug aus.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Maxx_BMT

Re: Vergleich von Gruppen

Beitrag von Maxx_BMT »

Ich hab es fast vermutet. Das heißt ich sollte es eher qualitativ beschreiben? Weil wie du schon sagst alle Tests signifikant werden?

LG
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Vergleich von Gruppen

Beitrag von jogo »

Es bedeutet, dass Du in üblicher Weise vorgehen kannst:

Code: Alles auswählen

t.test(Vektor1, Vektor2)
t.test(Vektor1, Vektor3)
t.test(Vektor2, Vektor3)
Aber bezogen auf das mögliche Ergebnis spielt natürlich die Aussage von EDi auch eine gewisse Rolle.

Gruß, Jörg
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vergleich von Gruppen

Beitrag von bigben »

Hi!

Noch ein paar Gedanken dazu. Wenn das 10 bis 20 Mio Messwerte wären, dann würde ich EDi Recht geben, dass jeder Test signifikant wird. Da braucht man dann nicht nur keinen Test auf Normalvverteilung, sondern auch keinen t-Test und keine ANOVA mehr. Wenn ich es richtig verstanden habe, wurden diese Werte aber nicht gemessen, sondern berechnet, und bei Berechnungen können natürlich auch solche Datenmengen statistisch gleichwertig sein:

Code: Alles auswählen

> t.test(rnorm(10^7), rnorm(10^7))

	Welch Two Sample t-test

data:  rnorm(10^7) and rnorm(10^7)
t = 0.10695, df = 2e+07, p-value = 0.9148
Daher kann das Testen vielleicht ausnahmsweise bei so großen Datenmengen sinnvoll sein.
t-Test und ANOVA werden gegenüber der Normalverteilungsannahme sehr robust, wenn die Zahlen groß sind, und Deine Zahlen sind mehr als nur groß. Interessanter sind da Abweichungen von der Annahme gleicher Varianzen, wenn die Fallzahlen unterschiedlich sind. Ob das in diesen Größenordnungen noch eine Rolle spielt, weiß ich nicht, aber mindestens für den t-Test kann man das Problem mit der Welch-Korrektur als erledigt ansehen.

Also: Ja, Du darfst eine ANOVA, du darfst beliebig viele t-Tests durchführen, aber ein winziger p-Wert ist vorher schon fast sicher. Der niedrige p-Wert ist daher wenig interessant und die despkriptive Beschreibung (wie groß sind die Unterschiede) ist wichtiger als der p-Wert.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Maxx_BMT

Re: Vergleich von Gruppen

Beitrag von Maxx_BMT »

Ah wunderbar, das bringt schon mal etwas Licht ins Dunkel. Jetzt noch eine letzte kleine Frage ich hab hier ja abhängige Daten da ich innerhalb eines Individuums gemessen habe (Spaltbreiten auf unterschiedlichen Niveaus). Das würde doch dann, da ich hier insgesamt 5 Gruppen vergleiche, auf eine RANOVA hinauslaufen?

@Bigben: Ja, die Daten wurden berechnet und zwar auf 3D Bilddaten. Da habe ich mit einem Algorithmus Spaltbreiten bestimmt und diese werden mit Pixeln repräsentiert und da ich große Bilddaten (50GB) habe, sind auch die berechneten Werte entsprechend groß (also ich habe dadurch entsprechend viele Messwerte, da ich viele Messpunkte bzw. Berechnungspunkte habe).

Vielen Dank! Ihr habt mir wirklich sehr geholfen.

Liebe Grüße,
Maxx_BMT
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Vergleich von Gruppen

Beitrag von EDi »

Ich weiß zwar nicht was eine RANOVA ist, würde aber ein mixed effects model vorschlagen (vorausgesetzt du hast mehrere Tiere pro Gruppe). Aber schwer zu sagen mit so wenig Infos.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vergleich von Gruppen

Beitrag von bigben »

Ich vermute mal, RANOVA soll eine Repeated Measures ANOVA sein. Ich würde auch eher zu einer Regression tendieren, das liegt aber daran, dass ich mich mit den ganzen ANOVA-Varianten nie so richtig beschäftigt habe.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten