Seite 1 von 2

Finden des Best-Fits für verschiedene Kurven

Verfasst: Do Jan 25, 2018 4:44 pm
von wkowalski
Hallo zusammen!

Ich schreibe gerade an einer Arbeit und habe für diese den Auftrag bekommen, die Erkrankungsraten von Herzkreislauferkrankungen bei Männern in 4 Altersgruppen (0-14 Jahre, 15-44 Jahre, 45-64 Jahre und 65-95+ Jahre) grafisch über die Zeit darzustellen und im Anschluss für jede Altersgruppe das "beste" Regressionsmodell (best-fit) zu finden.

Im Prinzip sehen meine Daten so aus:
datenhkl_männer_bestfit.JPG
Die grafische Darstellung sieht dann so aus: Die Erkrankungsraten der verschiedenen Altersgruppen über die Jahre
herzkreislauf_männer_bestfit.jpg
Hat jemand von euch eine Idee wie man hier in R am besten vorgeht?

LG

Re: Finden des Best-Fits für verschiedene Kurven

Verfasst: Do Jan 25, 2018 8:01 pm
von EDi
das "beste" Regressionsmodell (best-fit) zu finden.
Wie ist "beste" definiert?
Ein Modell das genau durch jeden Punkt geht wäre doch sehr gut, oder?

Re: Finden des Best-Fits für verschiedene Kurven

Verfasst: Fr Jan 26, 2018 9:18 am
von wkowalski
Hi Edi!

Mit "am besten" meine ich, jenes Modell, dass dem vorgebenen Kurvenverlauf am genauesten enstpricht oder so wie du sagst:" durch jeden Punkt geht".

Im Prinzip soll ich verschiedene Modelle austesten und dann eine Auflistung machen, welches Modell für welche Kurve am ehesten geeignet ist.

Hast du eine Idee wie ich das angehen könnte? Vielleicht gibt es ja schon ein fertiges Package (konnte leider bei meiner Suche nichts wirklich brauchbares finden).

Dann ist mir noch eingefallen, dass ich mal etwas über Bewertungskriterien von Modellen (BIC und AIC) gelesen habe --> habe aber keine Ahnung was diese aussagen (muss nochmal recherchieren).

LG

Re: Finden des Best-Fits für verschiedene Kurven

Verfasst: Fr Jan 26, 2018 12:04 pm
von Curnen
Also wenn es an die Umsetzung geht und du verschiedene Modelle testen und die AIC bestimmten willst, hilft dir vielleicht dieser Beitrag auf StackOverflow...

Aber bevor du loslegst wäre meine Frage an dich/deinen Aufgabensteller: Was für eine Aussage soll damit überhaupt bezweckt werden?

Geht es um eine Prognose, wie sich in der jeweiligen Altersgruppe die Erkrankungsraten in der Zukunft entwickeln? So rein von den Plots her bezweifle ich, dass man das seriös nur mit diesen Daten machen kann (nehmen wir beispielsweise an, du hättest die Daten bis 2005 als Trainingsdaten genommen und damit die Jahre 2006-2014 vorhergesagt - die Stagnation bzw. den Rückgang hättest du wohl kaum korrekt antizipiert).

Außerdem ist jemand, der als beispielsweise 40 jähriger ein KHK-Ereignis im Jahr 2005 erlitten hat, ab 2010 in der 45-65 Gruppe enthalten, selbst wenn er seitdem kein weiteres KHK-Ereignis mehr hatte (unter der Annahme natürlich, dass er das 2005 überlebt hat)

Daher frage ich mich warum man eigentlich diese sehr breiten Altersgruppen als kategorische Variablen eingeführt hat - denn der Zusammenhang zwischen der Häufigkeit von Herzkreislauferkrankungen und Alter ist gut belegt und ein 65-Jähriger wird mit einer deutlich geringeren Wahrscheinlichkeit in seinem Leben bereits ein KHK-Ereignis erlitten haben als ein 95-Jähriger.

Fazit: Vor der Frage "Wie mache ich das?" sollten hier noch stehen: "Was möchte ich überhaupt ermitteln?", "Kann ich das mit diesen vorliegenden Daten sinnvoll beantworten?", "Welche Methode nehme ich?"

Oder um es mit RA Fisher zu sagen: "To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of"

Re: Finden des Best-Fits für verschiedene Kurven

Verfasst: Fr Jan 26, 2018 1:59 pm
von wkowalski
Hey Curnen!

Ja es ginge in erster Linie um eine Prognose der Erkrankungsraten für die kommenden Jahre bis 2050.

Ich habe die Erkrankungsraten nicht nur in breiten Altersgruppen sondern auch in Einzeljahren. Nichtsdestotrotz ist es meine Aufgabenstellung, die besten/genauesten Regressionsmodelle für breite Altersgruppen zu finden (mein Professor wünscht eine zusammengefasste Übersicht).

LG

Re: Finden des Best-Fits für verschiedene Kurven

Verfasst: Fr Jan 26, 2018 5:11 pm
von bigben
Hallo wkowalski,

Erkläre bitte noch einmal, was Du unter Erkrankungsraten verstehst. Sind das Inzidenzen oder Prävalenzen? Mit anderen Worten: Gibt es die von Curnen angenommene Fortschreibung, dass ein einmal erkrankter auch in allen folgenden Jahren mit zu den Erkrankten gehört, bis er stirbt, oder gibt es die nicht?
Wenn ja, müsste ein Zukunftsmodell für jede außer der jüngsten Gruppe das Wissen aus den anderen Gruppen mit einbeziehen. Gibt es noch irgendwelche Randinformationen über die jeweiligen Jahrgänge, die man einbeziehen kann? Beispielsweise den durchschinttlichen Nikotinkonsum dieser Jahrgänge?

Du bist in eine Denkfalle getappt, die EDi Dir aufgestellt hat: Ein Polynom 500ster ider oder 1000ster Ordnung wird man gut durch diese Punkte legen können - deshalb ist das noch lange kein gutes Modell. Ohne ein theoriegeleitetes Konzept oder wirklich die einzelnen Daten jedes Eingeschlossenen wird sich hier schwerlich sagen lassen, was overfitting ist und was nicht.

LG,
Bernhard

Re: Finden des Best-Fits für verschiedene Kurven

Verfasst: Fr Jan 26, 2018 6:36 pm
von jogo
Bezüglich der jüngsten Altersgruppe spiele ich heute mal die Hella von Sinnen und sage ... (nicht Kanickelzucht, sondern) Strukturbruch.

Viel Glück, Jörg

Re: Finden des Best-Fits für verschiedene Kurven

Verfasst: Sa Jan 27, 2018 9:54 am
von student
Da
Ein Polynom 500ster ider oder 1000ster Ordnung wird man gut durch diese Punkte legen können
kann ich mich natürlich nur anschließen. Ich hatte mal - auch aus dem Medizinbereich - etwas gerechnet (Spline), die Anpassung sah gut aus, aber letztendlich war das nichts...

Re: Finden des Best-Fits für verschiedene Kurven

Verfasst: Sa Jan 27, 2018 10:18 am
von EDi
etwas gerechnet (Spline), die Anpassung sah gut aus, aber letztendlich war das nichts...
Tatsächlich, nicht trivial wenn man es gut machen will. GAMs sind meine Lieblingsmodelle, aber mit viel Power/Flexibilität kommt auch viel Verantwortung (und leider Blödsinn wenn in den falschen Händen).

Du bist in eine Denkfalle getappt, die EDi Dir aufgestellt hat: Ein Polynom 500ster ider oder 1000ster Ordnung wird man gut durch diese Punkte legen können - deshalb ist das noch lange kein gutes Modell.
.
Keine Falle, sollte eigentlich eine Anregung sein... :(

Re: Finden des Best-Fits für verschiedene Kurven

Verfasst: Sa Jan 27, 2018 10:21 am
von EDi
Ich denke so wie das Problem derzeit formuliert ist, macht die Übung wenig Sinn und schadet vermutlich mehr als das sie hilft.

W Kowalski, vielleicht willst du das nochmal überdenken?