Seite 1 von 1

Interpretation von Faktoren mit log transformierter Response

Verfasst: Sa Jul 27, 2019 4:45 pm
von Hadsga
Hi,

ich habe eine multiple Regression einer Zeitreihe:

Bsp.

Code: Alles auswählen

n = length(AirPassengers)

t = seq(1, n)

fit = lm(log(AirPassengers) ~ t + factor(cycle(AirPassengers)))

exp(coef(fit)          
        
                  (Intercept)                              t  factor(cycle(AirPassengers))2 
                   112.9313789                      1.0101197                      0.9781866 
 factor(cycle(AirPassengers))3  factor(cycle(AirPassengers))4  factor(cycle(AirPassengers))5 
                     1.1142397                      1.0799378                      1.0773785 
 factor(cycle(AirPassengers))6  factor(cycle(AirPassengers))7  factor(cycle(AirPassengers))8 
                     1.2173508                      1.3506951                      1.3381987 
 factor(cycle(AirPassengers))9 factor(cycle(AirPassengers))10 factor(cycle(AirPassengers))11 
                     1.1579948                      1.0085681                      0.8735534 
factor(cycle(AirPassengers))12 
                     0.9789046  


Meine Frage ist wie man die Koeffizienten interpretiert. Für die Zeit (t) kann man sagen, dass sich die Anzahl der Passagiere (im Durchschnitt) jeden Monat um 1% erhöht. Anders sieht es bei den Faktoren (Monaten) aus. Normalerweise, d.h. bei einem nicht transformierten Prädiktor, addiert man den entsprechenden Wert des Faktors mit dem Intercept. Wie macht man es hier? Die Aussage, im Juni liegt die Anzahl der Passagiere im Durchschnitt bei 148.7453 (112.93 * 1.21) macht keinen Sinn. Man könnte noch sagen, dass sich im Juni die Anzahl der Passagiere um 21% erhöht. Hier wäre aber das Problem in Bezug auf was?

Danke im voraus.

Re: Interpretation von Faktoren mit log transformierter Response

Verfasst: So Jul 28, 2019 1:10 pm
von Athomas
Ich gehe davon aus, dass Du ein Tutorial durcharbeitest. Du solltest mit selbst kreierten Varianten warten, bis Du die Vorlage komplett verstanden hast!
Hadsga hat geschrieben: Sa Jul 27, 2019 4:45 pm Die Aussage, im Juni liegt die Anzahl der Passagiere im Durchschnitt bei 148.7453 (112.93 * 1.21) macht keinen Sinn.
Das korrespondiert in meinen Augen auch nicht mit den Ergebnissen Deiner Regression - aber was genau stört Dich (abgesehen davon, dass 112.93*1.21 = 136.6) an der Aussage?

Re: Interpretation von Faktoren mit log transformierter Response

Verfasst: Mo Jul 29, 2019 6:48 pm
von Hadsga
Hi,

ja, ich muss mich im Moment in die Zeitreihenanalyse einarbeiten. Dazu nutze ich zwei Skripte der WWU und der Uni Kassel. Mir ist auch bewusst, dass die Regression nicht das beste Verfahren ist, um eine Zeitreihe zu modellieren. Aber ich will zumindest mal alle Verfahren in ihren Grundzügen verstehen und anwenden können.

So wie ich die Skripte verstanden habe, lassen sich Zeitreihen über eine Regression modellieren wobei die Zeit als metrische Variable (auch wenn sich das nicht ist) und die Saisonkomponente als Faktor (mit in diesem Fall 12 Ausprägungen) in das Model eingeht.

Bei dem verwendeten Datensatz nimmt die Streuung über die Zeit zu (Heteroskedastizität). Um dem zu begegnen habe die Zielvariable logtransformiert. Natürlich gibt es noch weitere Probleme z.B. Autokorrelation. Die will ich aber erstmal außer vorlassen.

Um nun die Beta Koeffizieten zu interpretieren, muss ich sie ebenfalls transformieren. Im einfachsten Fall interpretiert man Betakoeffizieten der Faktoren anhand der Referenzkategorie, was hier der Januar ist. Somit kann ich sagen, dass im Juni durchschnittlich 21% mehr Menschen fliegen als im Januar. Die Frage ist nun A) ob eine solche Interpretation bei Zeitreihen zulässig ist, da die Saisonkomponente im Regressionmodell unzietriert ist und B) ich gerne einen absoluten Wert hätte.

Re: Interpretation von Faktoren mit log transformierter Response

Verfasst: Di Jul 30, 2019 8:59 am
von Athomas
Ich will aus Zeitgründen nur auf einen Aspekt eingehen, nämlich die Art, wie Du die Zeit in Deinem Modell untergebracht hast: Du hast die Monate einfach von 1 bis weissnichtwas durchnummeriert und diesen Wert als Prädiktor in die Regression aufgenommen.

Das hat zur Folge, dass Du für die Berechnung der "durchschnittlichen Abstände" innerhalb eines Jahres - etwa zwischen Juni und Januar - nicht nur die "Betakoeffizienten" der Monate betrachten musst, sondern auch die Tatsache einbeziehen musst, dass die Zeit "t" um fünf Einheiten (Monate) weiterläuft. Das bedeutet ja (in etwa) 5% weitere Zunahme...

Re: Interpretation von Faktoren mit log transformierter Response

Verfasst: Di Jul 30, 2019 5:58 pm
von Hadsga
Hi,

es handelt sich um Monatsdaten, d.h. ich habe 12 Werte pro Jahr.

In einer Regression werden die Betakoeffizienten immer unter der Prämisse interpretiert, dass alle anderen Faktoren konstant gehalten werden, egal ob es sich um eine Zeitreihe handelt oder nicht. Demnach kann ich den Einfluss der Saison nur ohne etwaige zeitlichen Veränderung angeben. Sprich ich könnte sagen, dass sich die Anzahl der Passagiere pro Monat im Schnitt um 1% erhöht. Ungeachtet dieses Trends fliegen im Juni 21% mehr Passagiere als im Januar. Diese 21% würde ich halt gerne als absolute Zahl angeben, auch wenn ich weiß, dass in diesem Wert der Trend nicht mit inbegriffen ist. Zudem würde ich gerne wissen, ob ich diese Aussagen bei einer Zeitreihe so treffen darf. Dazu finde ich leider nichts.