Vergleich von Gruppen

Alles zum Thema der beschreibenden Statistik

Moderator: jogo

Maxx_BMT

Re: Vergleich von Gruppen

Beitrag von Maxx_BMT »

Hallo,

erstmal vielen Dank für die Antwort.

Damit vielleicht noch etwas Licht ins Dunkel kommt. Meine Daten teilen sich wie folgt auf. Ich hab pro Tier 5 verschiedene Bereiche Dicke des parodontalen Spaltes entlang der Z-Achse gemessen/berechnet. Das heißt ich habe pro Tier 5 Messvektoren und habe für den Unterkiefer 5 Tiere und den Oberkiefer bisher 4 Tiere. Also keine große Stichprobe da die Analyse entsprechend aufwendig ist.

Ok, mixed effect model habe ich mir in der Vergangenheit auch schon mal angeschaut, da muss ich mich nochmal einlesen, wie ich die entsprechenden Variablen wählen müsste.

So oder so ähnlich sollte das ganz doch aussehen?

Code: Alles auswählen

 lmer(spaltdicke ~ region + individuum , data=mess_matrix) 
 
Besten Dank für die Hilfe.
Maxx_BMT
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vergleich von Gruppen

Beitrag von bigben »

Hallo Maxx_BMT,

jetzt hast Du mich verloren. Reden wir jetzt über 5 Tiere à 5 Messwerte oder reden wir über "Vektoren mit einer Länge von 10 bis 20 Mio Einträgen"? Das sind jetzt sowohl statistisch als auch rechnend sehr verschiedene Welten. Oder reden wir von 5 Tieren à 5 Regionen à tausende von Messwerten pro Region?

Was Du da oben notiert hast ist ein fixed effects model. Das ist völlig ok, wenn wir zigtausende von Messpunkten haben, verbraucht aber zuviele Freiheitsgrade, wenn wir nur 25 Messwerte haben.

Ich glaube wir sind an dem Punkt, wo Du mal ausführlich beschreiben solltest, was Du da machst und was die eigentliche Forschungsfrage ist.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Maxx_BMT

Re: Vergleich von Gruppen

Beitrag von Maxx_BMT »

Hallo,

ok vielleicht macht es eine Tabelle etwas anschaulicher:
Capture.PNG
Das ist sozusagen mein jetziger Stand. 5 Tiere, jedes Tier wurde in 5 Regionen eingeteilt und jetzt möchte ich wissen ob diese Regionen in ihrer Breite statistische voneinander unterscheiden.

Warum ist das interessant?
Hier geht es um die Parodontalspaltbreite und ihre physiologischen bzw. biomechanischen Parameter, da die Breite mit der Zahnbewegung (rotatorische und translatorische) zusammenhängt. Dieses Phänomen ist schon qualitativ beschrieben wurden, aber eben noch nicht qunatitativ untermauert wurden bzw. wenn bei Spezies die dem Menschen nur sehr fern verwandt sind.
Wichtig ist für mich die Zusammensetzung und Formgebung zu beschreiben, da darauf aufbauend ein entsprechend biomechanisches Modell entwickelt werden soll.
Ich will jetzt nicht zu tief in die Materie einsteigen, nur damit sagen, dass ich jetzt mal auch mit entsprechender Statistik untermauern will :)

Ist es dir jetzt etwas klarer? :) Entschuldige wenn ich etwas verwirrend geschrieben habe.

Vielen Dank im Voraus

Maxx_BMT
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Vergleich von Gruppen

Beitrag von bigben »

Ok, dann glaube ich es wieder verstanden zu haben. Wenn Du nur zeigen willst, dass im einfachen linearen Modell eine Abhängigkeit von der Region besteht kannst Du zunächst ein einfaches Modell mit

Code: Alles auswählen

summary(lm(spaltdicke ~ region + individuum , data=mess_matrix))
berechnen. Ich nehme an, dass region und individuum jeweils als factor codiert sind?
In diesem Fall bekommst Du nicht nur einen p-Wert für das Gesamtmodell, wie bei der ANOVA, sondern auch eine quantitative Schätzung (Mittelwert und Standardfehler) dafür, mit welchem Gewicht jede Region und jedes Individuum in die Vorhersage der Spaltdicke eingeht. Du bekommst auch ein R^2 zur Einschätzung, wieviel Prozent der Varianz der Spaltdicke durch dieses einfache lineare Modell vorhergesagt wird.

Der Unterschied zum mixed effects model: Dabei interessiert Dich der Schätzwert jedes Individuums nicht (weil diese beliebig gegen andere Individuen austauschbar gewesen wären), und Du unterstellst, dass der Wert jedes Individuums normalverteilt sein wird. Allein für die Beweisführung, dass die Region eine Rolle spielt, brauchst Du diese Überlegungen und diese Annahme eigentlich nicht. Du kannst aber natürlich überlegen, ob das inhaltlich für Dich interessant wäre, den Standardfehler innerhalb der verschiedenen Tiere zu schätzen.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Maxx_BMT

Re: Vergleich von Gruppen

Beitrag von Maxx_BMT »

Hallo,

genau die Sachen sind als Faktoren codiert, wobei ich da noch ein bisschen Probleme mit der Zuweisung habe. Da es bei mir nicht nebeneinander steht, sodass Tiere und Regionen nebeneinander stehen und ich es nicht als Spalte sondern als Zeile kodiert habe und das ist in R für mich irgendwie schwerer zu implementieren als in anderen Sprachen.

Vielen Dank auch für deine Erklärungen ich versuche es heute zum Laufen zu bringen!

Besten Dank,
Maxx_BMT
Maxx_BMT

Re: Vergleich von Gruppen

Beitrag von Maxx_BMT »

Hallo,

ich hab das Modell jetzt laufen lassen mit folgendem Ergebnis:

Code: Alles auswählen

Call:
lm(formula = measurement ~ region + species, data = complete)

Residuals:
    Min      1Q  Median      3Q     Max 
-96.732 -12.827   0.494  14.502  64.501 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     63.366661   0.003305 19175.0   <2e-16 ***
regionRegion2   -9.838906   0.003259 -3018.8   <2e-16 ***
regionRegion3  -12.394951   0.003537 -3504.0   <2e-16 ***
regionRegion4    1.662416   0.003582   464.1   <2e-16 ***
regionRegion5   12.848264   0.003811  3371.7   <2e-16 ***
species252AB    -1.571702   0.003833  -410.1   <2e-16 ***
species263BCC   24.225872   0.003539  6845.9   <2e-16 ***
species288BB    13.002733   0.003593  3618.6   <2e-16 ***
speciesSaphira  -7.505219   0.005149 -1457.6   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 21.95 on 355411996 degrees of freedom
Multiple R-squared:  0.2904,    Adjusted R-squared:  0.2904 
F-statistic: 1.818e+07 on 8 and 355411996 DF,  p-value: < 2.2e-16
Jetzt bräuchte ich noch etwas Hilfe bei der Interpretation. Könnte mir da jetzt jemand helfen? Bzw. ich verstehe es momentan so, dass ich sämtliche Faktoren eine Abhängigkeit zur Spaltbreite beitragen, sowohl die Spezies als auch die Region.

Beste Grüße und Danke

Maxx_BMT
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Vergleich von Gruppen

Beitrag von jogo »

Sieht es übersichtlicher aus, wenn Du

Code: Alles auswählen

A <- aov(formula = measurement ~ region + species, data = complete)
summary(A)
ausführst?

Gruß, Jörg
Maxx_BMT

Re: Vergleich von Gruppen

Beitrag von Maxx_BMT »

Also AOV liefert folgende Ergebnisse:

Code: Alles auswählen

> A <- aov(formula = measurement ~ region + species, data = complete)
> summary(A)
                   Df    Sum Sq   Mean Sq  F value Pr(>F)    
region              4 2.512e+10 6.280e+09 13030416 <2e-16 ***
species             4 4.499e+10 1.125e+10 23334252 <2e-16 ***
Residuals   355411996 1.713e+11 4.820e+02                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Auch hier habe ich bei beiden Größen eine Signifikanz.

Daher bin ich jetzt etwas überfragt :)

Danke für deine Hilfe!
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Vergleich von Gruppen

Beitrag von jogo »

Also die region hat Einfluss auf measurement und auch die Ausprägung von species hat Einfluss auf measurement.
Das entspricht doch dem Bild in viewtopic.php?f=8&t=869&start=10#p3867
Hast Du etwas Anderes erwartet?

Gruß, Jörg
Maxx_BMT

Re: Vergleich von Gruppen

Beitrag von Maxx_BMT »

Ich hatte zumindest erwartet bzw. gehofft, dass die "species" bzw. das Individuum keinen Einfluss hat, dass es sozusagen für die Individuen gleich ist aber die Region sich unterscheidet.

Aber scheinbar ist dazu die Stichprobe zu klein bzw. für meine Stichprobe ist es auch Individuen abhängig.

Die einzige Frage bleibt noch AOV oder lieber lm ? Da ich ja zwar normalverteilte Daten habe aber gewisse Abhängigkeiten vor allem bei den Regionen, da diese jeweils am gleichen Individuum 5 verschiedene Regionen gemessen habe.

Besten Dank,

Maxx_BMT
Antworten