Finden des Best-Fits für verschiedene Kurven

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

wkowalski

Finden des Best-Fits für verschiedene Kurven

Beitrag von wkowalski »

Hallo zusammen!

Ich schreibe gerade an einer Arbeit und habe für diese den Auftrag bekommen, die Erkrankungsraten von Herzkreislauferkrankungen bei Männern in 4 Altersgruppen (0-14 Jahre, 15-44 Jahre, 45-64 Jahre und 65-95+ Jahre) grafisch über die Zeit darzustellen und im Anschluss für jede Altersgruppe das "beste" Regressionsmodell (best-fit) zu finden.

Im Prinzip sehen meine Daten so aus:
datenhkl_männer_bestfit.JPG
Die grafische Darstellung sieht dann so aus: Die Erkrankungsraten der verschiedenen Altersgruppen über die Jahre
herzkreislauf_männer_bestfit.jpg
Hat jemand von euch eine Idee wie man hier in R am besten vorgeht?

LG
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von EDi »

das "beste" Regressionsmodell (best-fit) zu finden.
Wie ist "beste" definiert?
Ein Modell das genau durch jeden Punkt geht wäre doch sehr gut, oder?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
wkowalski

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von wkowalski »

Hi Edi!

Mit "am besten" meine ich, jenes Modell, dass dem vorgebenen Kurvenverlauf am genauesten enstpricht oder so wie du sagst:" durch jeden Punkt geht".

Im Prinzip soll ich verschiedene Modelle austesten und dann eine Auflistung machen, welches Modell für welche Kurve am ehesten geeignet ist.

Hast du eine Idee wie ich das angehen könnte? Vielleicht gibt es ja schon ein fertiges Package (konnte leider bei meiner Suche nichts wirklich brauchbares finden).

Dann ist mir noch eingefallen, dass ich mal etwas über Bewertungskriterien von Modellen (BIC und AIC) gelesen habe --> habe aber keine Ahnung was diese aussagen (muss nochmal recherchieren).

LG
Curnen
Beiträge: 27
Registriert: Fr Nov 18, 2016 3:45 pm

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von Curnen »

Also wenn es an die Umsetzung geht und du verschiedene Modelle testen und die AIC bestimmten willst, hilft dir vielleicht dieser Beitrag auf StackOverflow...

Aber bevor du loslegst wäre meine Frage an dich/deinen Aufgabensteller: Was für eine Aussage soll damit überhaupt bezweckt werden?

Geht es um eine Prognose, wie sich in der jeweiligen Altersgruppe die Erkrankungsraten in der Zukunft entwickeln? So rein von den Plots her bezweifle ich, dass man das seriös nur mit diesen Daten machen kann (nehmen wir beispielsweise an, du hättest die Daten bis 2005 als Trainingsdaten genommen und damit die Jahre 2006-2014 vorhergesagt - die Stagnation bzw. den Rückgang hättest du wohl kaum korrekt antizipiert).

Außerdem ist jemand, der als beispielsweise 40 jähriger ein KHK-Ereignis im Jahr 2005 erlitten hat, ab 2010 in der 45-65 Gruppe enthalten, selbst wenn er seitdem kein weiteres KHK-Ereignis mehr hatte (unter der Annahme natürlich, dass er das 2005 überlebt hat)

Daher frage ich mich warum man eigentlich diese sehr breiten Altersgruppen als kategorische Variablen eingeführt hat - denn der Zusammenhang zwischen der Häufigkeit von Herzkreislauferkrankungen und Alter ist gut belegt und ein 65-Jähriger wird mit einer deutlich geringeren Wahrscheinlichkeit in seinem Leben bereits ein KHK-Ereignis erlitten haben als ein 95-Jähriger.

Fazit: Vor der Frage "Wie mache ich das?" sollten hier noch stehen: "Was möchte ich überhaupt ermitteln?", "Kann ich das mit diesen vorliegenden Daten sinnvoll beantworten?", "Welche Methode nehme ich?"

Oder um es mit RA Fisher zu sagen: "To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of"
wkowalski

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von wkowalski »

Hey Curnen!

Ja es ginge in erster Linie um eine Prognose der Erkrankungsraten für die kommenden Jahre bis 2050.

Ich habe die Erkrankungsraten nicht nur in breiten Altersgruppen sondern auch in Einzeljahren. Nichtsdestotrotz ist es meine Aufgabenstellung, die besten/genauesten Regressionsmodelle für breite Altersgruppen zu finden (mein Professor wünscht eine zusammengefasste Übersicht).

LG
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von bigben »

Hallo wkowalski,

Erkläre bitte noch einmal, was Du unter Erkrankungsraten verstehst. Sind das Inzidenzen oder Prävalenzen? Mit anderen Worten: Gibt es die von Curnen angenommene Fortschreibung, dass ein einmal erkrankter auch in allen folgenden Jahren mit zu den Erkrankten gehört, bis er stirbt, oder gibt es die nicht?
Wenn ja, müsste ein Zukunftsmodell für jede außer der jüngsten Gruppe das Wissen aus den anderen Gruppen mit einbeziehen. Gibt es noch irgendwelche Randinformationen über die jeweiligen Jahrgänge, die man einbeziehen kann? Beispielsweise den durchschinttlichen Nikotinkonsum dieser Jahrgänge?

Du bist in eine Denkfalle getappt, die EDi Dir aufgestellt hat: Ein Polynom 500ster ider oder 1000ster Ordnung wird man gut durch diese Punkte legen können - deshalb ist das noch lange kein gutes Modell. Ohne ein theoriegeleitetes Konzept oder wirklich die einzelnen Daten jedes Eingeschlossenen wird sich hier schwerlich sagen lassen, was overfitting ist und was nicht.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von jogo »

Bezüglich der jüngsten Altersgruppe spiele ich heute mal die Hella von Sinnen und sage ... (nicht Kanickelzucht, sondern) Strukturbruch.

Viel Glück, Jörg
Benutzeravatar
student
Beiträge: 674
Registriert: Fr Okt 07, 2016 9:52 am

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von student »

Da
Ein Polynom 500ster ider oder 1000ster Ordnung wird man gut durch diese Punkte legen können
kann ich mich natürlich nur anschließen. Ich hatte mal - auch aus dem Medizinbereich - etwas gerechnet (Spline), die Anpassung sah gut aus, aber letztendlich war das nichts...
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von EDi »

etwas gerechnet (Spline), die Anpassung sah gut aus, aber letztendlich war das nichts...
Tatsächlich, nicht trivial wenn man es gut machen will. GAMs sind meine Lieblingsmodelle, aber mit viel Power/Flexibilität kommt auch viel Verantwortung (und leider Blödsinn wenn in den falschen Händen).

Du bist in eine Denkfalle getappt, die EDi Dir aufgestellt hat: Ein Polynom 500ster ider oder 1000ster Ordnung wird man gut durch diese Punkte legen können - deshalb ist das noch lange kein gutes Modell.
.
Keine Falle, sollte eigentlich eine Anregung sein... :(
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von EDi »

Ich denke so wie das Problem derzeit formuliert ist, macht die Übung wenig Sinn und schadet vermutlich mehr als das sie hilft.

W Kowalski, vielleicht willst du das nochmal überdenken?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten