Trenderkennung

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

wkowalski

Trenderkennung

Beitrag von wkowalski »

Hallo!

Ich beschäftige mich momentan mit der Trenderkennung von Datensätzen. Konkret handelt es sich um Erkrankungsraten für verschiedene Krankheiten innerhalb der männlichen und weiblichen Bevölkerung für bestimmte Jahre.

Die Daten sehen in etwa so aus:

Berichtsjahr Erkrankungsrate
1989 1948
1990 2219
1991 1999
1992 2201
1993 2138
1994 2179
1995 1944

Das Ziel sollte nun sein, herauszufinden ob man aus diesen Daten einen Trend "herauslesen" und diesen dann fortführen kann. Beispielsweise habe ich ein lineares Modell entwickelt, welches mir eine lineare Hochrechnung für die nächsten Jahre berechnet. Problem hierbei ist, dass ich nicht weiß ob die hier die lineare Hochrechnung die beste und Genaueste Variante darstellt. Weiters sind die Datensätze auch sehr beschränkt -> ich habe nur Daten im Zeitraum von 1989 - 2014. Habt ihr vielleicht eine Idee, wie ich da am besten Verfahren könnte?

LG
consuli
Beiträge: 479
Registriert: Mo Okt 10, 2016 8:18 pm

Re: Trenderkennung

Beitrag von consuli »

Schritt 1)
Deine Absolutzahlen in echte Raten umrechnen. Wenn die Krankheit z.B. Alzheimer wäre, durch die Anzahl der Risikogruppe z.B. älter 65 Jahre, teilen.

Schritt 2)
XY Plott, echte Rate über Zeit.

Schritt 3)
Anhand des XY Plots ein in Frage kommende Modell auswählen.

Schritt 4)
Ausgewählte Modelle (3 bis 5) auf die (wenigen Datenpunkte) anfitten.

Schritt 5)
Anhand der R-Quadrat Statistik das Modell auswählen, dass die kleinste Quadratemethode als Optimierungsmethode verwendet hat, weil R-Quadrat ebenfalls auf kleinster Quadrate Methode aufgebaut ist. ;) ;) :lol: :lol:
Irmgard.
wkowalski

Re: Trenderkennung

Beitrag von wkowalski »

Zu 1.)

Sorry habe die falschen Daten reinkopiert: natürlich sollten es keine Absolutzahlen sein

Das Ganze sieht dann so aus:

Jahr Erkrankungsrate
1989 0,004126305
1990 0,003389681
1991 0,005452984
1992 0,004367897
1993 0,006365385
1994 0,005945599
1995 0,006688963

2.) Das Problem ist, dass ich wirklich viele Datensätze habe -> sprich es gibt für einzelne Erkrankungen verschiedene Altersgruppen (von 0-95+ Jahre) das heißt ich hab 40 Files mit je 95+ Spalten. Wenn ich mir da jede Altersgruppe einzeln anschauen muss werd ich wahrscheinlich verrückt :D

Zu 3.) und 4.) das muss ich mir dann also nochmal ansehen

Irgendeine Idee wie ich am besten starte?

LG
consuli
Beiträge: 479
Registriert: Mo Okt 10, 2016 8:18 pm

Re: Trenderkennung

Beitrag von consuli »

wkowalski hat geschrieben: Do Sep 14, 2017 10:55 am Zu 3.) und 4.) das muss ich mir dann also nochmal ansehen
Genau. Kannst dann ja mal ein paar x-y-plots posten. Daraus ergibt sich dann das weitere Vorgehen.
Irmgard.
wkowalski

Re: Trenderkennung

Beitrag von wkowalski »

Hallo!

Habe jetzt mal für Herzkreislauferkrankungen ein paar Plots erstellt:

Hier mal ein Plot für 1jährige Männer in den Jahren von 1989 - 2014
m1.png
m1.png (4.61 KiB) 1702 mal betrachtet
Dann noch ein Plot für 50 jährige Männer
m50.png
m50.png (4.81 KiB) 1702 mal betrachtet
Leider kann ich nur 2 Dateien anhängen --> habe allerdings noch ein paar Plots gemacht

LG
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Trenderkennung

Beitrag von EDi »

consuli hat geschrieben: Do Sep 14, 2017 10:48 am Schritt 1)
Deine Absolutzahlen in echte Raten umrechnen. Wenn die Krankheit z.B. Alzheimer wäre, durch die Anzahl der Risikogruppe z.B. älter 65 Jahre, teilen.
Hmm, sind die Raten dann normalverteilt? Ich vermute nicht...

Wie wäre es mit einem GLM (Poisson, negativ binomial) mit der Größe der Risikogrupoe als Offset? Dann bekommt man wenigstens keine Nonsense vorhersagen...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Trenderkennung

Beitrag von bigben »

Hi!
Ich sehe jeweils wenige Punkte und viel Streuung. Sehr viel Information über die Art des Trends steckt da nicht drin und eine gute Theorie haben wir nicht. Wenn man da mehr als eine Gerade durch legt, dann schreit man nach Overfitting. Selbst die Gerade würde ich lieber mit robuster Regression statt LOS gerechnet sehen.

JMTC,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
wkowalski

Re: Trenderkennung

Beitrag von wkowalski »

Hey!

Wie soll ich den Datensatz auf Normalverteilung überprüfen? Mit Shapiro-Wilk?

Ja die wenigen Punkte stellen auf jeden Fall ein Problem dar das weiß ich. Gibt es nicht eine Möglichkeit einen Trend herauszufinden der nicht kompletter Blödsinn oder geraten ist?
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Trenderkennung

Beitrag von bigben »

Hi!

Gibt es einen Grund, auf Normalverteilung zu prüfen? Wenn Du wirklich viele DAtensätze hast, die alle normalverteilt sind, dann ist bei jedem 20. trotzdem p < 0.05.

Mein Vorschlag wäre einen Trend als Regressionsgerade einer robuste linearen Regression zu errechnen. OLS ist sehr anfällig gegenüber Ausreißern.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
wkowalski

Re: Trenderkennung

Beitrag von wkowalski »

Ok bezüglich Normalverteilung wollte ich nur auf den Kommentar von EDi reagieren ;)
bigben hat geschrieben: Mo Sep 25, 2017 4:20 pm Mein Vorschlag wäre einen Trend als Regressionsgerade einer robuste linearen Regression zu errechnen. OLS ist sehr anfällig gegenüber Ausreißern.
O.k ich werd mir die robuste lineare Regression mal genauer ansehen...

Ist die robuste lineare Regression von der Anwendung her ähnlich der normalen linearen Regression?

LG
Antworten