Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Wie rufe ich R-Funktionen auf, wie selektiere ich Daten, ich weiß nicht genau ....

Moderatoren: EDi, jogo

LeaNie

Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von LeaNie »

Hallo,
ich habe mich gerade hier angemeldet, da ich ein statistisches Problem bei der Durchführung des Mann-Whitney-Wilcoxon Tests habe, da meine Daten unterschiedlich groß sind (A = 30.000.000 und B = 1.500.000). Die Daten sind unabhängig. Ich weiß nicht, wie ich folgende Fehlermeldung umgehen kann: Error in model.frame.default(formula = grid_code_XXX ~ grid_code_YYY) : Variablenlängen sind unterschiedlich (gefunden für 'grid_code_YYY').

Auch bin ich im Allgemeinen neu in der Statistik: Ich versuche diese beiden sehr großen Datensätze zu vergleichen (A und B). Deswegen habe ich zunächst die Mittelwerte berechnet. Nun will ich die Signifikanz testen, jedoch sehe ich in den Verteilungskurven, dass die Daten nicht Normalverteilt sind. Deswegen habe ich mich gegen den T-Test entschieden oder sollte ich lieber einen ‚ordentlichen‘ Test durchführen, um eine Bestätigung zu haben?

Vielen Dank für Antworten im Voraus
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von jogo »

Hallo LeaNie,

willkommen im Forum!
Gibt es zu der Fehlermeldung auch einen Funktionsaufruf, durch den diese Fehlermeldung provoziert wurde?

Gruß, Jörg
p.s.: Dies funktioniert:

Code: Alles auswählen

wilcox.test(1:10, 11:30)
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von bigben »

Hallo LeaNie,

die Fehlermeldung könnte darauf hindeuten, dass Du ein "~" verwendet hast, wo ein Komma richtig gewesen wäre. Was den Vergleich der Mittelwerte angeht: Je größer die zu untersuchenden Gruppen sind, umso robuster wird der t-Test. Bei 30 Mio gegen 1,5 Mio kannst Du den t-Test anwenden. Du brauchst ihn aber nicht wirklich, weil jeder Mittelwertunterschied signifikant wird.
Der von Dir gewählte Rangsummentest hingegen vergleicht Rangsummen und nicht Mittelwerte und das sind zwei verschiedene Dinge. Es kommt jetzt auf den Kontext Deiner Arbeit an, ob Du lieber das eine oder lieber das andere untersuchen möchtest.

Was an einem t-Test oder einem Rangsummentest unordentlich sein soll, oder was Du unter einem ordentlichen Tests verstehst, müsstest Du vielleicht nochmal erklären.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
LeaNie

Re: Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von LeaNie »

Vielen Dank für die Antworten. Mit dem ordentlich meinte ich nur, ob ich zunächst einen Test durchführen muss, ob die Werte einer Normalverteilung folgen, um den T-Test durchführen zu dürfen. Mein Ziel ist zu testen, ob sich die Mittelwerte signifikant unterscheiden.
Aber wenn jeder Mittelwertunterschied bei so vielen Daten signifikant ist, dann sollte ich den t-test lieber nicht machen. Leider ist mir nicht ganz klar, warum. Mein Haupanliegen ist zu ermitteln, welcher Datensatz generell höhere bewertet ist, wenn die Daten von A (3 Mio) und B (1,5 Mio) Werte zwischen 0 bis 50 annehmen können. Reicht es „nur“ den Mittelwert zu erheben?
Liebe Grüße
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von jogo »

LeaNie hat geschrieben: Do Apr 13, 2017 3:15 pm wenn die Daten von A (3 Mio) und B (1,5 Mio) Werte zwischen 0 bis 50 annehmen können. Reicht es „nur“ den Mittelwert zu erheben?
nein, Du brauchst für den t-Test noch die Standardabweichungen und die Freiheitsgrade:
https://de.wikipedia.org/wiki/Zweistich ... tichproben

Grüße, Jörg
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von bigben »

LeaNie hat geschrieben: Do Apr 13, 2017 3:15 pmMit dem ordentlich meinte ich nur, ob ich zunächst einen Test durchführen muss, ob die Werte einer Normalverteilung folgen, um den T-Test durchführen zu dürfen.
Da kommt es sehr darauf an, was Dein Lehrer/Professor glaubt. Ich halte das grundsätzlich für nicht sinnvoll. Wenn wir von kleinen Datensätzen reden, dann ist die Power des Normalverteilungstests sehr klein, weshalb ein nicht-signifikantes Ergebnis keine Normalverteilung beweist. Wenn wir von großen Datensätzen reden, dann wird die Power des Normalverteilungstests so groß, dass er die Abweichung jeder realen Datenquelle von der Normalverteilung anzeigt, auch wenn dies für den Test keine Rolle spielt. Dazwischen mag es irgendwo einen Datengrößenbereich finden, in dem die Kombination Sinn macht. Keine Ahnung, wo der liegen könnte.

Wenn Dein Prof das aber in der Vorlesung anders vermittelt hat, dann solltest Du lieber seinen Willen tun als meinen.
Aber wenn jeder Mittelwertunterschied bei so vielen Daten signifikant ist, dann sollte ich den t-test lieber nicht machen. Leider ist mir nicht ganz klar, warum.
Die Nullhypothese besagt, dass der Mittelwertunterschied 0,0000000000000000000000000000000000000000000000000000 mit noch unendlich vielen weiteren Nullen beträgt. Unendlich kleine Unterschiede zwischen den Mittelwerten sind aber nicht realistisch. Irgendwas auf der achten Nachkommastelle gibt es eigentlich immer. Die achte Nachkommastelle interessiert aber fast nie. Deshalb testet der t-Test etwas praktisch irrelevantes, wenn seine Power zu groß wird.

Der Mittelwert aus einer Stichprobe von 1,5 Mio hat einen Standardfehler von fast Null. Der Mittelwert aus einer Stichprobe von 30 Mio ist noch näher an Null. Wenn in Deinen Stichproben die Mittelwerte mehr als fast Null voneinander abweichen, dann sind das i. d. R. mehr als 2*2 Standardfehler.
Reicht es „nur“ den Mittelwert zu erheben?
Sehr wahrscheinlich ja, aber wenn es Dich oder Deinen Prof beruhigt, dann rechne halt einen t-Test. Wenn es sich nicht um computergenerierte oder mathematisch definierte, sondern um real in der echten Welt gemessene Werte handelt, dann wird p sehr, sehr, sehr klein werden.
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von bigben »

jogo hat geschrieben: Do Apr 13, 2017 3:28 pm
LeaNie hat geschrieben: Do Apr 13, 2017 3:15 pm wenn die Daten von A (3 Mio) und B (1,5 Mio) Werte zwischen 0 bis 50 annehmen können. Reicht es „nur“ den Mittelwert zu erheben?
nein, Du brauchst für den t-Test noch die Standardabweichungen und die Freiheitsgrade:
https://de.wikipedia.org/wiki/Zweistich ... tichproben

Grüße, Jörg
Zur weiteren Erläuterung:
Da die Werte zwischen 0 und 50 liegen, kann die Standardabweichung wohl nicht über 25 liegen. Der Standardfehler des Mittelwerts kann also in der einen Gruppe höchstens 25/sqrt(1.5e6) = 0,0204 und in der anderen Gruppe höchstens 25/sqrt(3e7) = 0.0046 sein. Tatsächlich werden beide deutlich geringer sein. Wenn wir der alten Faustregel folgen, dass sich die 95%-KIs nicht überlappen, dann wäre da mit 1,96*0,0204+1,96*0,0046 = 0,049 unter ungünstigsten Bedingungen Raum für einen Mittelwertunterschied von 0,05.

Jetzt schildere mir bitte eine Situation, in der Du Werte auf einer Skala von 0 bis 50 misst und einen Mittelwertunterschied von 0,05 tatsächlich ein relevanter Unterschied ist.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
LeaNie

Re: Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von LeaNie »

Vielen, vielen Dank für die Antworten.
Ich habe jetzt den T-Test (independent 2-group) durchgeführt und einen p-Wert < 2.2e-16 erhalten. Ich würde nun gerne argumentieren, dass es nicht sinnvoll ist den T-Test hier anzuwenden. So war eigentlich auch mein Plan, aber ich sollte es machen… Es kann also zusammenfassend gesagt werden, dass der T-test bei einer so großen Datenmenge und einem zu geringen Standardfehler nicht berechnet werden sollte, da sich Mittelwerte nicht signifikant unterschieden werden.
Ich hoffe, dass ich alles richtig verstanden habe. Vielen Dank, Bernhard, für die Erklärung mit dem Standardfehler. Aber gibt es dann eine Lücke für Testverfahren für sehr große Datenmengen, wie sie beispielsweise in der Geostatistik vorkommen?
Ich wünsche schöne Ostertage.
Beste Grüße
LeaNie
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von bigben »

LeaNie hat geschrieben: Do Apr 13, 2017 8:11 pm Vielen, vielen Dank für die Antworten.
Sehr gerne.
Ich habe jetzt den T-Test (independent 2-group) durchgeführt und einen p-Wert < 2.2e-16 erhalten.
Wenig überraschend, aber immer wieder schön.
Ich würde nun gerne argumentieren, dass es nicht sinnvoll ist den T-Test hier anzuwenden. So war eigentlich auch mein Plan, aber ich sollte es machen… Es kann also zusammenfassend gesagt werden, dass der T-test bei einer so großen Datenmenge und einem zu geringen Standardfehler nicht berechnet werden sollte, da sich Mittelwerte nicht signifikant unterschieden werden.
Das verstehe ich jetzt wieder nicht. Natürlich unterscheiden sich die Mittelwerte signifikant, wenn man dem statistischen Begriff von Signifikanz verwendet. Statistische Signifikanz hat dann halt nicht mehr viel mit Signifikanz im Sinne von "wesentlich/bedeutsam" zu tun. Bedeutsamkeit kann gegeben sein oder auch nicht. DAs ist nicht statistisch zu klären, sondern jeweils sachwissenschaftlich.
Aber gibt es dann eine Lücke für Testverfahren für sehr große Datenmengen, wie sie beispielsweise in der Geostatistik vorkommen?
Ich verstehe nicht, was Du hier mit "Lücke" meinst, noch weiß ich etwas über Geostatistik. Wenn man sehr große Datenmengen hat, dann kann man sich meist auch wesentlich komplexere Fragestellungen vornehmen, die dann nicht mehr mit einem einfach t-Test zu beantworten sind. Bei großen Datenmengen geht es eher darum, komplexe Zusammenhänge korrekt zu erfassen und die mit der Gewinnung von großen Datenmengen oft verbundenen Fehler bei der Datenerhebung zu berücksichtigen, präzise Vorhersagen zu treffen und, und, und.

Das Konzept der Nullhypothese ist ein künstliches. Deren Untauglichkeit wird bei wachsender Datensatzgröße immer bedeutsamer. Es kommt darauf an, die richtigen Fragen zu stellen und das sind eben ganz oft keine Nullhypothesenfragen.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
LeaNie

Re: Mann-Whitney-Wilcoxon mit unterschiedlich großen Daten, Wahl des richtigen Tests zum Vergleich der Mittelwerte

Beitrag von LeaNie »

Okay, sie unterscheiden sich signifikant, sorry.
Der Hinweis mit der richtigen Fragestellung ist auf jeden Fall sehr gut. Meine Ausgangsfragestellung ist zu überprüfen, ob der Datensatz A (30 Mio) oder B (1,5 Mio) generell höhere Werte erzielt. Deswegen hatte ich den Mittelwert errechnet und sollte ihn testen. Jedoch habe ich mich gefragt, was noch möglich wäre, um Unterschiede in den Datensätzen zu erklären. Deswegen hatte ich noch die Verteilungen und ein Histogramm dargestellt, aber wenn ich viel Ahnung von Statistik hätte, könnte ich bestimmt noch mehr machen… Mit anderen Worten: Mir ist nicht ganz klar, wie ich statistisch korrekt die Unterschiede der beiden Datensätze erklären soll, bzw. welcher Datensatz höhere Werte hat als der andere.
Liebe Grüße
LeaNie
Antworten