Datensatz analysieren

Alles zum Thema der beschreibenden Statistik

Moderator: jogo

Antworten
michaela_h

Datensatz analysieren

Beitrag von michaela_h »

Hallo liebes Forum,

ich schreibe euch in tiefer Verzweiflung, weil ich im Rahmen meiner Statistik Vorlesung einen Datensatz analysieren soll.

Dazu soll ich zwei bis drei Hypothesen aufstellen und den Datensatz daraufhin untersuchen.

Folgendermaßen ist der Datensatz aufgebaut

A data frame with records for 88 age/alcohol/tobacco combinations.

[,1] "agegp" Age group
1 25--34 years
2 35--44
3 45--54
4 55--64
5 65--74
6 75+
[,2] "alcgp" Alcohol consumption
1 0--39 gm/day
2 40--79
3 80--119
4 120+
[,3] "tobgp" Tobacco consumption
1 0-- 9 gm/day
2 10--19
3 20--29
4 30+
[,4] "ncases" Number of cases
[,5] "ncontrols" Number of controls

http://vincentarelbundock.github.io/Rda ... /esoph.csv

Mein Ansatz:

Lineare Regression

Aber ich kann die Variablen Alter, Alkohol- und Tabakkonsum überhaupt nicht verarbeiten, weil diese als Bereiche angegeben sind.

Ergo kann ich sie nicht in einer Variablen verarbeiten.

Ich weiss einfach nicht weiter und hoffe jemand kann mir erklären wie ich diesen Datensatz (eventuell anders?) analysieren könnte?

Ganz liebe und viele Grüße

Und ganz vielen Dank für eure Hilfe!
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Datensatz analysieren

Beitrag von EDi »

Siehe

Code: Alles auswählen

?esoph
Da steht unter anderem auch wie man ein GLM mit binomial Verteilung nutzt, um den Effekt von Alkohol & Tabak & deren Interaktion sich anzuschauen.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
michaela_h

Re: Datensatz analysieren

Beitrag von michaela_h »

Hey!

Danke für deine Antwort.

Könntest du ausführlicher erklären was du meinst?

Ganz vielen lieben Dank!
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Beispiele und Hilfe in R

Beitrag von EDi »

Könntest du ausführlicher erklären was du meinst?
Ich hoffe man hat euch in der Statistik-Vorlesung beigebracht wie man an Hilfe in R kommt (das kommt bei uns nämlich in der ersten Stunde dran, auch wie man außerhalb von R an Hilfe kommt).

Mit

Code: Alles auswählen

?esoph
ruft man die Hilfeseite zum Datensatz 'esoph' auf (jede Funktion und jeder Datensatz in R müssen eine solche Hilfe/Dokumentationsseite haben).

Die sind all ähnlich aufgebaut, mit
  • 'Description': Kurze Beschreibung
  • 'Usage': Der Funktionsaufruf mit allen (Default-)Argumenten
  • 'Arguments': Erklärung der verschiedenen Argumente
  • 'Details': Nähergehende Beschreibunng der Funktion
  • 'Value': Beschreibung was die Funktion zurückgibt
  • 'References': Literaturangaben
  • 'Notes': Hinweise zur (Falsch-)benutzung und Implementierung
  • 'See also': ähnhängige oder ähnliche Funktionen
  • 'Examples' (immer ganz unten): das sind Beispiele wie man die Funktioen anwendet. Für mich sind die examples das zweiwichtigste in der ganzen Hilfe. Da sieht man wie man die Funktion anwenden kann (bei manchen Hilfeseite geht es auch heftig zur Sache und man lernt einiges (z.b. ?mgcv::gam.models').
Du kannst den ganzen Code innerhalb der Hilfe auch mit example() laufen lassen:

Code: Alles auswählen

example(esoph)
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Datensatz analysieren

Beitrag von bigben »

Hallo Michaela,

wenn das mit der Hilfefunktion so schwer fällt, dann wird das mit dem GLM sicher auch schwer fallen. Was Du mit Deinen bisherigen Statistikkenntnissen analysieren kannst, können wir nicht wissen.
michaela_h hat geschrieben:Mein Ansatz:

Lineare Regression
Das ist kein Ansatz, sondern bestenfalls eine Methode. Eher ist es ein Überbegriff über eine Reihe von Methoden. Wenn wir von plain-vanilla-wir-legen-eine-Gerade-durch-eine-Punktwolke-mit-Methode-der-kleinsten-Quadrate Linearer Regression ausgehen, dann hast Du völlig Recht: Dann ist das das falsche Skalenniveau.

Aus diesem Dilemma gibt es zwei Auswege. Entweder, man bemüht fortgeschrittene Formen der linearen Regression, wie das generalisierte lineare Modell (worauf EDis Link hinaus läuft), oder man weicht auf andere Verfahren aus, die mit ordinalem Skalenniveau zurecht kommen, wie zum Beispiel Chiquadrat-Tests, Rangsummentests, Kruskal-Wallis-Test. Natürlich weißt nur Du, welche dieser Tests bei Euch unterrichtet wurden. Es soll auch schon Statistiklehrer gegeben haben, die ordinalskalierte Daten mit einfacher linearer Regression untersucht haben, auch wenn das nicht die reine Lehre ist. Ob Deine Lehrer dazu gehören könnten, kannst nur Du wissen.

LG,
Bernhard




PS: Die Suche nach dem passenden Signifikanttestverfahren unter "Deskriptive Statistik" zu posten ist unpassend. In diesem Forum hat niemand Probleme damit, wenn mal was im falschen Unterforum gepostet wurde, aber vor der nächsten Klausur willst Du vielleicht noch mal nachlesen, was deskriptive Statistik und was testende Statistik ist.
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten