2 Stichproben unterschiedlichen Umfangs untersuchen

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
schwede

2 Stichproben unterschiedlichen Umfangs untersuchen

Beitrag von schwede »

Moin!

Ich stehe gerade vor dem Problem, 2 unabhänige Stichproben mit unterschiedlichem Umfang (n1=110; n2=101) vergleichen zu müssen.

Zuerst habe ich also mal für beide Messreihen einen Shapiro-Test durchgeführt um zu sehen, ob die Werte normalverteilt sind.

Ergebnis für Stichprobe 1: W = 0.9675, p-value = 0.008674 -> nicht normal verteilt
Ergebnis für Stichprobe 2: W = 0.97425, p-value = 0.04529 -> nicht normal verteilt (wenn auch knapp)

nun wollte ich also einen Wilcoxon - Test durchführen. Folgender Code gab mir jedoch einen völlig absurden p-Wert aus:

Code: Alles auswählen

> wilcox.test(Hoehe~Variante,mu=0,alt="two.sided",confind=TRUE,data=a )


Ergebnis:

Code: Alles auswählen

Wilcoxon rank sum test with continuity correction

data:  Hoehe by Variante
W = 8245, p-value = 1.271e-09
alternative hypothesis: true location shift is not equal to 0
Soll heisen, es gibt einen ziemlich signifikanten Unterschied zwischen beiden Messreihen - aber den p-Wert kann ich doch so keinem anbieten...
Es handelt sich im Übrigen um Messwerte einer Länge die alle in etwa zwischen 100mm und 400mm liegen....

Findet jemand einen grundlegenden Fehler in meiner Überlegung - geht der Wilcoxon überhaupt bei unterschiedlichem Probenumfang? Muss zugeben, dass ich von Statistik keinen wirklichen Plan habe....

Schonmal Danke und Gruß
schwede
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: 2 Stichproben unterschiedlichen Umfangs untersuchen

Beitrag von EDi »

Hallo, ich bin kein Freund von Shapiro... (Gründe hab ich hier schon oft genug erläutert). Schau dir lieber die Verteilung grafisch an...
Wichtiger ist die Varianzgleichheit (auch bei nicht-pa-rametrischen Tests).

Was gefällt dir an dem p-Wert nicht? Ist halt eine Zahl...

Ich finde p-Werte ziemlich uninformativ und berichte lieber Effektgrößen und Fehler...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: 2 Stichproben unterschiedlichen Umfangs untersuchen

Beitrag von bigben »

Hallo schwede,

In der Tat ist es unüblich zu sagen, p sei zehn-hoch-minus-acht, weil das letztlich p pseudogenau ist. Eine üblichere Schreibweise wäre p < 0,0001. Das drückt das Ergebnis sehr genau aus: p ist so klein, dass Zufall als Ausrede nicht mehr gilt.

Angesichts der großen Fallzahl könntest Du auch unter Verletzung der Normalverteilung einen t-Test (bei Gefahr ungleicher Varianzen einen Welch-Test) rechnen, aber der Rangsummentest ist schon in Ordnung.

Deine Frage nach den unterschiedlichen Stichprobenumfängen lässt vermuten, dass Dir der Unterschied zwischen einem Rangsummentest und einem Vorzeichenrangtest noch nicht ganz klar ist (die beide mit der Funktion wilcox.test durchgeführt werden). Schau Dir das ggf. nochmal an. Der Rangsummentest hat kein Problem mit unterschiedlich großen Stichprobenumfängen.

Ansonsten hast Du da noch einen Tippfehler in Deinem Funktionsaufruf. Es soll nicht `confind`, sondern `conf.int=TRUE` heißen.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
schwede

Re: 2 Stichproben unterschiedlichen Umfangs untersuchen

Beitrag von schwede »

Danke für Eure Antworten. Habe den p-Wert jetzt so genommen und die Aussage mit Boxplotts untermauert. Die Ergebnisse des Shapiro-Test werden auch durch das entsprechende Histogramm untermauert. Sollte also so passen.

Nochmal Danke!
Gruß
schwede
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: 2 Stichproben unterschiedlichen Umfangs untersuchen

Beitrag von bigben »

Hallo schwede,

mein Vorschlag wäre: Lass die Boxplots weg und stelle einfach zwei Histogramme einander gegenüber. Da steckt mehr Information drin als in den Boxplots und Du sparst Dir eine Abbildung!
So was, zum Beispiel: http://www.cookbook-r.com/Graphs/Plotti ... ple-groups

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten