Normalverteilung möglich?

Karuna · Beitrag von **Karuna** » Mi Jan 20, 2021 9:50 am

Hallo!

Zu erst einmal vielen Dank für das tolle Forum. Es hat mir bereits viel bei der Auswertung meiner BA geholfen, nun komme ich aber gerade nicht weiter. Meine Daten müssen für das mixed model das ich mache Normalverteilt sein. Der Shapiro test liefert p << 0.05. (Verteilung s. Anhang)

Nun habe ich versucht, mit log(x), sqrt(x) und (1/x) die Daten zu transformieren, aber trotzdem ist der shapiro negativ.

Hat jemensch eine Idee, was ich da noch versuchen könnte, oder sind die Daten so unschön, dass ich es gar nicht versuchen brauche?

Vielen lieben Dank!!

Karuna

Beitrag von **bigben** » Mi Jan 20, 2021 10:15 am

Hallo Karuna,

mit den klassischen Verteilungen verglichen sehen diese Daten am ehesten gleichverteilt aus. Die irgendwie in Richtung einer Glockenkurve zu verbiegen würde schon erheblich manipulativ wirken. Du solltest Deine Energie vielleicht eher in die Frage stecken, was genau normalverteilt sein muss und wie schlimm es ist, diese Verteilungsannahme zu verletzen.

Ist das eine Prädiktorvariable? Die müssen in aller Regel nicht normalverteilt sein, sondern die Residuen sollten normalverteilt sein. Du solltest ein n ≅ 1000 haben. Da werden sehr viele Verfahren aber auch sehr robust gegen Verletzung von Normalverteilungsannahmen.

Ich würde daher nicht auf Transformationen setzen. Stattdessen hier erklären, was Du da genau machen möchtest und welche Frage Du mit welchen Daten beantworten möchtest. Vielleicht kommen dann hier Vorschläge, die Du noch gar nicht auf der Liste hattest.

LG,
Bernhard

Karuna · Beitrag von **Karuna** » Mi Jan 20, 2021 10:36 am

Hallo Bernhard,

erst einmal vielen lieben Dank für deine Antwort

Es handelt sich hierbei um gemessene C-Gehalte in Blättern, ich denke, das ist dann keine Prädiktorvariable sondern eine Antwortvariable (?). In meinem Versuch ist n = 36, das ist leider etwas wenig....

Gibt es eine andere Möglichkeit, mixed models mit lmer() anzuwenden, ohne dass der shapiro > 0.5 ist?

Liebe Grüße

Karuna

Beitrag von **bigben** » Mi Jan 20, 2021 11:06 am

Karuna hat geschrieben: ↑Mi Jan 20, 2021 10:36 amEs handelt sich hierbei um gemessene C-Gehalte in Blättern, ich denke, das ist dann keine Prädiktorvariable sondern eine Antwortvariable (?).

Bei Kohlenstoffgehalten in Wurzeln wäre alles klar, aber Kohlenstoffgehalte in Blättern können sowohl das eine als auch das andere sein.

Ich bleibe bei meiner Empfehlung von oben:

Stattdessen hier erklären, was Du da genau machen möchtest und welche Frage Du mit welchen Daten beantworten möchtest. Vielleicht kommen dann hier Vorschläge, die Du noch gar nicht auf der Liste hattest.

LG,
Bernhard

Beitrag von **EDi** » Mi Jan 20, 2021 2:22 pm

Du kannst die Normalverteilungsannahme eines linearen Models nicht mit deinem Test über alle Werte deiner abhängigen Variable testen.
Stattdessen schaut man sich die Residuen an.

Hier ein Beispiel:

Code: Alles auswählen

set.seed(1234)
x <- runif(100, min = 0, max = 100)
y <- 2*x + rnorm(100)
plot(y ~ x)

df <- data.frame(x, y)
hist(y)
mod <- lm(y ~ x, data = df)
hist(residuals(mod))

Bei gemischten Modellen ist das natürlich etwas komplexer. Nicht nur die Residuen innerhalb eines random effects, aber auch die Random Effects selbst werden als normalverteilt angenommen (beim simpelsten Model, ich weiß ja nicht wie deines aussieht).

Von diesen Tests halte ich nicht viel, ich prüfe lieber graphisch.

bigben hat geschrieben: ↑Mi Jan 20, 2021 11:06 am Ich bleibe bei meiner Empfehlung von oben:
Stattdessen hier erklären, was Du da genau machen möchtest und welche Frage Du mit welchen Daten beantworten möchtest. Vielleicht kommen dann hier Vorschläge, die Du noch gar nicht auf der Liste hattest.
LG,
Bernhard

Jupp, das sehe ich genauso. Wie sieht das Model aus? Macht es Sinn? Welche Annahmen macht es? Wie kann ich diese prüfen?

Gibt es eine andere Möglichkeit, mixed models mit lmer() anzuwenden, ohne dass der shapiro > 0.5 ist?

Das eine (shapiro) schließt meiner Meinung nach das andere (lmer) nicht aus. "All models are wrong, but some are useful" (George Box). Statistik ist kein strikter flow-chart (wäre ja sonst langweilig), auch wenn es (leider immernoch) teilweise so gelehrt wird.

Karuna · Beitrag von **Karuna** » Do Jan 21, 2021 2:14 pm

Danke, ich habe inzwischen eine Lösung gefunden, wie ich um das Problem herumkomme, ohne es gänzlich durchblickt zu haben...

Ich werde das model nur dort verwenden, wo ich eine Normalverteilung vorgefunden habe.

Trotzdem lieben Dank noch einmal

Karuna

Deutsches R-Forum

Normalverteilung möglich?

Normalverteilung möglich?

Re: Normalverteilung möglich?

Re: Normalverteilung möglich?

Re: Normalverteilung möglich?

Re: Normalverteilung möglich?

Re: Normalverteilung möglich?