Normalverteilung

Alles zum Thema der beschreibenden Statistik

Moderator: jogo

Antworten
Katti
Beiträge: 15
Registriert: Fr Feb 21, 2020 3:42 pm

Normalverteilung

Beitrag von Katti »

Hallo Zusammen,

ich habe ein paar Fragen zur Normalverteilung.

Kann nur ein kardinal-stetiges Merkmal normalverteilt sein oder auch ein kardinal-diskretes?

Welche Möglichkeiten habe ich in R, um herauszufinden ob dieses Merkmal (Altersklassen) normalverteilt ist?

Ich habe einen Datensatz mit n=2000

Ich habe schon ein Histogramm erstellt, welche für mich jedoch am ehsten nach einer linksschiefen Verteilung aussieht.
Histogramm Altersklassen.JPG
Desweiteren habe ich einen Boxplot erstellt. Aus diesem würde ich wiederum sagen, das der Median eher ind er Mitte als zum unteren oder oberen Quantil liegt, dass es sich um eine symmetrische Verteilung handelt. Deutet dies dann auch direkt auf eine Normalverteilung hin?
Boxplot Altersklassen.JPG
Ich bin über jede Hilfe dankbar!

Vielen lieben Dank vorab!

Liebe Grüße

Katti
ruppy
Beiträge: 41
Registriert: Mo Nov 04, 2019 10:05 pm

Re: Normalverteilung

Beitrag von ruppy »

Hi Katti,

wenn man nach "Normalverteilung prüfen r" googelt, landet man auch hier:

viewtopic.php?t=681

Aber wichtiger:

Altersklassen sind nicht kardinal-diskret.
Wenn du das Alter in vollen Jahren hättest schon eher.

So hat das ganze nur ordinales Skalenniveau.
Die Frage nach der Normalverteilung hat sich damit erübrigt.

Noch als Tipp:

Code ist zur Nachvollziehbarkeit besser geeignet als Bilder.

BG ruppy
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Normalverteilung

Beitrag von bigben »

Hallo Katti,

Normalverteilung ist ein mathematisches Ideal und als solches in unserer realen Welt nicht vorhanden. NIchts, was man mit Händen anfassen kann ist jemals normalverteilt im strikten Sinn(*). Deshalb interessiert uns in der praktischen Statistik nie, ob etwas perfekt normalverteilt ist, sondern nur, ob es "nah genug dran an Normalverteilung" ist. Bei n = 2000 werden viele Verfahren sehr robust gegenüber Normalverteilungsannahmenverletzung.

Ja, Du hast eine linksschiefe Verteilung, das beantwortet aber nicht die Frage, ob es nah genug an normal ist. Kommt ganz drauf an, was Du im Weiteren damit machen willst. Wenn ich es richtig in Erinnerung habe, hast Du diese Altersklassen selbst aus dem Alter klassiert. Mir fällt gerade kein Beispiel ein, bei dem Normalverteilung ein Thema sein könnte und bei dem es nicht besser wäre, das Alter selbst anstelle der Altersklassen einzusetzen.

Du darfst aber gerne schildern, für welche weiteren Analysen Du Dich für die Normalverteilung interessierst.

LG,
Bernhard


(*) Die Dichteverteilung jeder Normalverteilung reicht von -∞ bis +∞. Deine Altersverteilung reicht aber nicht bis in negative Jahre. Damit ist ohne Histogramm und ohne Boxplot die Nicht-Normalität Deiner Daten im streng mathematischen Sinn schon vor Studienbeginn klar gewesen...
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Katti
Beiträge: 15
Registriert: Fr Feb 21, 2020 3:42 pm

Re: Normalverteilung

Beitrag von Katti »

Hallo Rubby und hallo Bernhard (again :D),

vielen lieben Dank für eure Beiträge!

Wie Bernhard richtig geschildert hat, habe ich die Altersklassen aus 71 Ausprägungen selbst gebildet. Das Alter ist somit kardinalskaliert und stetig.

Meine Absicht der Frage bzgl. der Normalverteilung rührt daher, da ich gerade eine Hausarbeit schreibe und wir für diese 2 Signifikanztests machen müssen.

Nun habe ich jedoch nur die Variable "Alter", welches kardinalskaliert und stetig ist. Alle anderen Merkmale sind kardinal-diskret, in meinem Datensatz sind dies z.B. die Pendelzeit (12 Ausprägungen), die Anzahl an Kindern (9 Ausprägungen), die Anzahl an Fahrzeugen (4 Ausprägungen).

Da die Voraussetzung für die uns bekannten Signifikanztests (t-Test für eine Stichprobe, t-Test für zwei abhängige oder 2 unabhängige Stichproben, einfache lineare Regressionsanalyse) immer ist, dass das Merkmal bzw. die abhängige Varible kardinal + normalverteilt ist und ich davon ausgegangen bin, dass nur kardinal-stetige Merkmale normalverteilt sind sowie das eine symmetrische Verteilung (ersichtlich aus dem Boxplot) für eine Normalverteulung steht, habe ich nun die 2 folgenden 2 Signifikanztests mit dem "Alter" durchgeführt:

H01 Das durchschnittliche Alter der erkrankten Personen liegt bei 50 Jahren. - t-Test für eine Stichprobe

H03 Die Anzahl an Fahrzeugen hat keinen linearen Einfluss auf das Alter. - einfache lineare Regression

Nun habe ich jedoch gehört, das symmetrisch nicht immer gleich bedeutet, dass es sich um eine Normalverteilung handelt. Im Internet habe ich gelesen, dass man von einer Normalverteilung ausgehen kann, wenn der Median und der Mittelwert annähernd gleich sind.

Der Median und der Mittelwert für die Variable "Alter" sehen wie folgt aus:

> quantile(age)
0% 25% 50% 75% 100%
17 39 56 72 87

> mean(age)
[1] 54.7955

Ich wäre so froh, wenn ihr mir sagen könntet, dass das Alter normalvertielt ist. Ansonsten würde ich meine Signifikanztests nochmal neu machen müssen.
Ich habe dann überlegt ob ich für die Signifikanztests auch die Anzahl an Kindern nehmen könnte. Da dieses Merkmal jedoch kardinal-diskret ist, weiß ich nicht ob hier eine Normalverteilung bestehen kann. Anbei meine Graphiken zu der Anzahl an Kindern.
Balkendiagramm Kinder.JPG
Für mich zeigt das Balkendiagramm eher eine rechtsschiefe als eine symmetrische Verteilung. Ist die korrekt?
Boxplot Kinder.JPG
Anhand des Boxplots würde ich sagen, dass es sich um eine rechtsschiefe Verteilung handelt, da der Median näher am unteren Quartil als zur Mitte liegt.

Und hier noch der Median und der Mittelwert von der Anzahl an Kidnern.

Das Diagramm zeigt eine eher rechtsschiefe als symmetrische Verteilung.
> quantile(children)
0% 25% 50% 75% 100%
0 1 1 2 8

> mean(children)
[1] 1.456

Ich bin euch so so sehr dankbar für eure Hilfe und finde dieses Forum einfach nur klasse!
Es rettet mir gerade den A**** :)

DANKE EUCH!!!!
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Normalverteilung

Beitrag von bigben »

Bist Du ganz sicher, dass Ihr keine Spearman-Korrelation mit deren Test gelernt habt? Der würde wunderbar für ganz viele Fragestellungen passen.
Ansonsten gehört der t-Test ganz klassisch zu den Verfahren, die bei ausreichender Stichprobengröße keine Normalverteilung brauchen. Du kannst bei n=200 durchaus mit einem t-Test prüfen, ob die durchschnittliche Kinderzahl von Männern und Frauen signifikant unterschiedlich ist.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Katti
Beiträge: 15
Registriert: Fr Feb 21, 2020 3:42 pm

Re: Normalverteilung

Beitrag von Katti »

Hallo Bernhard,

falls du den Rangkorrelationskoeffizienten nach Spearman meinst, den hatte wir auch. Aber im Skript steht, dass ich den nur bei 2 ordinalskalierten Merkmalen anwenden kann oder bei einem ordinal und einem kardinalskalierten Merkmal. Daher habe ich diesen nicht verwendet. Und laut der Dozentin gilt die bivariate Analyse nur als Signifikanztest, wenn ich damit auch gleichzeitig auf Signifikanz überprüfe. Aber dies mache ich ja bei den Koeffizienten nicht.

"Du kannst bei n=200 durchaus mit einem t-Test prüfen, ob die durchschnittliche Kinderzahl von Männern und Frauen signifikant unterschiedlich ist."
- Ist dies dann ein Test für 2 unabhängige Stichproben?
- also kann ich einen T-Test auch bei karinal-diskreten Merkmalen durchführen, da die Anzahl der Kinder ja kardinal-diskret ist?

Und sind meine bisher durchgeführten Signifikanztests falsch?
Also diese beiden hier:

H01 Das durchschnittliche Alter der erkrankten Personen liegt bei 50 Jahren. - t-Test für eine Stichprobe

H03 Die Anzahl an Fahrzeugen hat keinen linearen Einfluss auf das Alter. - einfache lineare Regression

Vielen lieben Dank!
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Normalverteilung

Beitrag von EDi »

Die Anzahl der Kinder könnte Poisson verteilt sein...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten