Finden des Best-Fits für verschiedene Kurven

Modelle zur Korrelations- und Regressionsanalyse

Moderator: EDi

wkowalski

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von wkowalski »

Hallo!
bigben hat geschrieben: Fr Jan 26, 2018 5:11 pm Erkläre bitte noch einmal, was Du unter Erkrankungsraten verstehst. Sind das Inzidenzen oder Prävalenzen? Mit anderen Worten: Gibt es die von Curnen angenommene Fortschreibung, dass ein einmal erkrankter auch in allen folgenden Jahren mit zu den Erkrankten gehört, bis er stirbt, oder gibt es die nicht?
Ich versuche mal deine Frage zu beantworten:

Grundlage meiner Datensätze ist die Krankenhausentlassungsstatistik (stationäre Morbidität) in der die aufgetretenen Fälle von Herzkreislauferkrankungen in den verschiedenen Jahren dokumentiert sind. Auf Basis dieser "Fallzahlen" habe ich mir dann in weiterer Folge Erkrankungsraten in der jeweiligen Bevölkerungsgruppe berechnet (Rate = (Erkrankungsfälle in Altersgruppe)/(Anzahl der Personen in Altersgruppe)).

Prinzipiell werden in der Krankenhausentlassungsstatistik alle aufgetretenen Fälle innerhalb der Krankenhausmauern dokumentiert --> heißt aber leider auch, dass Leute die mehrmals ins Krankenhaus kommen, mehrmals in der Statistik aufscheinen (leider gibt es keine Daten um Mehrfachaufnahmen aus der Statistik herauszurechnen und diese zu bereinigen).

Des Weiteren ist es mir nicht möglich weitere Randinformationen miteinzubeziehen, da diese Analyse für weitere Erkrankungen durchgeführt werden soll. Erstens würde eine Betrachtung der jeweiligen Auslöser/Randinformationen dezent meinen Arbeitsrahmen sprengen und weiters liegen diese Daten schlicht und einfach nicht vor.

Eigentlich sollte das Ziel meiner Arbeit eine Projektion/Prognose der zukünftigen Erkrankungsraten und in weiterer Folge der Erkrankungsfälle ermöglichen (hat ein bisschen was von einem "Ratespiel" das ist mir bewusst). Solche Modelle gibt es ja zur genüge. Häufig werden in diesen Modellen die letzten bekannten Erkrankungsraten als konstant angenommen und unverändert in die Zukunft fortgeschrieben (was ja auch nicht stimmen kann, da sich Erkrankungsraten über die Zeit ändern --> nichtsdestotrotz muss man am Beginn irgendwelche Annahmen für sein Modell treffen, da man die Zukunft nicht zu 100 % vorhersagen kann). Bei dieser Art von Modellen ändert sich dann nur die Zusammensetzung der Bevölkerung und wirkt sich in weiterer Folge auf die prognostizierten Fallzahlen aus.

Mir ist bewusst, dass eine Prognose/Projektion nie den Anspruch erheben kann, die Zukunft perfekt vorherzusagen, jedoch sollte sie eine Grundlage dafür darstellen, Aussagen darüber treffen zu können wohin sich die Entwicklung "wahrscheinlich" bewegen kann --> dazu kann man seine Projektion ja auch für verschiedene Szenarien anpassen und dann sagen wohin die Reise in Zukunft am ehesten gehen wird.
EDi hat geschrieben: Sa Jan 27, 2018 10:21 am Ich denke so wie das Problem derzeit formuliert ist, macht die Übung wenig Sinn und schadet vermutlich mehr als das sie hilft.
Lieber Edi, was soll ich dann deiner Meinung nach tun? Ich habe diesen Arbeitsauftrag und nun auch schon einige Zeit investiert. Ich kann und werde auf jeden Fall die genannten Kritikpunkte in meiner Arbeit berücksichtigen und entsprechend diskutieren, jedoch kann ich die Arbeit nicht komplett niederlegen, es geht ja immerhin auch um meinen Abschluss :D

Um nochmal zum Anfang meiner Frage zu kommen: mein Auftraggeber will nun von mir eine grafische Darstellung der Krankheitsraten für Männer und Frauen und das zugehörige Modell welches die vorliegenden Daten am "besten" erklärt (hierbei soll ich verschiedene Modelle, wie z.B. lineare Regression austesten). In weiterer Folge will er nur wissen ob es in den verschiedenen Altersgruppen unterschiedliche Modelle benötigt (wenn dies der Fall ist, kann ich in meiner Arbeit argumentieren, dass die Krankheitsraten in verschiedenen Altersgruppen und bei den Geschlechtern spezifisch sind und eine Einzelbetrachtung der Raten (z.b. für Alter in Einzeljahren erforderlich wäre)). Mir ist auch bewusst, dass es keinen Sinn hat jeden Verlauf der Erkrankungsraten durch Polynome 1000. Grades zu erklären (Stichwort: Overfitting).

Ich hoffe ich konnte nun einen besseren Einblick in den Sachverhalt geben.

LG
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von EDi »

Lieber Edi, was soll ich dann deiner Meinung nach tun? Ich habe diesen Arbeitsauftrag und nun auch schon einige Zeit investiert. Ich kann und werde auf jeden Fall die genannten Kritikpunkte in meiner Arbeit berücksichtigen und entsprechend diskutieren, jedoch kann ich die Arbeit nicht komplett niederlegen, es geht ja immerhin auch um meinen Abschluss :D
Dann würde ich die Fehler unbedingt mit darstellen (die werden vermutlich riesig sein).

Aufjedenfall geht es in die Richtung Zeitreihenmodelle. Ich würde ja ein GAM nehmen ;)...
Und dann mal schauen ob du für jede Gruppe einen eigenen Smoother brauchst (vermute ja).
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
wkowalski

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von wkowalski »

Lieber Edi!

Habe mich jetzt mal ein bisschen in die GAMs eingelesen und auch noch ein bisschen geschaut, was ich sonst noch machen kann.

Bin dann letztendlich zum Schluss gekommen, dass die Aufgabenstellung meines Professors wirklich ein bisschen schwammig formuliert ist. Im Grunde ginge es ja darum den Best-Fit für die vorliegenden Erkrankungsraten zu finden --> die "beste" Anpassung würde ich ja dadurch erreichen ein Polynom n-ten Grades in die Kurve der Erkrankungsraten zu legen (aber natürlich schreit das dann auch nach Overfitting und eine aussagekräftige Prognose wäre nicht möglich). Nun glaube ich, dass mein Professor einfach wollte, dass ich abseits der linearen Regression (die ich schon implementiert habe) noch andere Regressionsmodelle austeste und überprüfe, wie die Anpassung bei diesen anderen Modellen aussieht.

Werde jetzt im nächsten Schritt meinen Professor davon in Kenntnis setzten, dass der "Best-Fit" durch Polynome n-ten Grades erzeugt werden kann, befürchte aber, dass er sich eine weitere Aufgabenstellung einfallen lässt.

Wie bereits erwähnt habe ich zurzeit die Prognose der Erkrankungsraten durch lineare Regression realisiert (was ja auch nicht optimal ist). Hast du vielleicht eine Idee, wie ich diese Wahl in meiner Arbeit begründen kann?

Eventuell hast du ja auch noch weiteren Input für mich... wäre dir auf jeden Fall sehr dankbar!

LG
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Finden des Best-Fits für verschiedene Kurven

Beitrag von EDi »

Hast du vielleicht eine Idee, wie ich diese Wahl in meiner Arbeit begründen kann?
Bis auf 'Einfachheit' fällt mir nichts dazu ein.
Die lineare Regression ist in den allermeisten Fällen nicht für Zeitreihen geeignet...

ets() und auto.arima() könnten auch interessant sein...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Antworten