Lösungsansätze für Datensatz amis

Alles zum Thema der beschreibenden Statistik

Moderator: jogo

versteheRnicht

Lösungsansätze für Datensatz amis

Beitrag von versteheRnicht »

Guten Abend,

zur Zeit beschäftigen wir uns in der Uni mit der Statistiksoftware R. Wir müssen zur Zeit Aufgaben zu einem Datensatz namens "amis" lösen.
Der amis-Datensatz beinhaltet 8437 Geschwindigkeitsmessungen zu verschiedenen Zeitpunkten um zu
untersuchen, ob Warnschilder einen Effekt auf die Geschwindigkeit von Autos haben.
Aktiviert/installiert wird dieser mit:
data(amis, package="boot")
install.packages("boot", dependencies=TRUE)

Folgende Variablen tauchen auf:

speed
Geschwindigkeit des Autos, in Meilen pro Stunde
period
Messzeitpunkt
1 – Messung vor dem Aufstellen des Warnschilds
2 – Messung direkt nach dem Aufstellen des Warnschilds
3 – Messung einige Zeit nach dem Aufstellen des
Warnschilds
warning
Die insgesamt 28 Messstellen wurden in zwei 14er
Gruppen aufgeteilt. In den Gruppen mit warning = 1
wurde ein Warnschild aufgestellt (Zielgruppe), in den
Gruppen mit warning = 2 wurde kein Warnschild
aufgestellt (Kontrollgruppe).
pair
Jeder Messstelle, an der ein Warnschild aufgestellt
wurde, wurde eine strukturgleiche Messstelle
gegenübergestellt, an der kein Warnschild aufgestellt
wurde. Insgesamt gibt es 14 Paare.

So, kommen wir nun zu den Aufgaben, wo ich nicht weiterkomme... Faul bin ich nicht, ich schätze die richtigen Gedankenansätze habe ich aber es scheitert an der "Übersetzung" in R zur Aufgabenlösung.

Kommen wir zu den Aufgaben sowie den Lösungsansätzen von mir:

1.)Untersuchen Sie mit einem geeigneten statistischen Testverfahren den Zusammenhang zwischen der
Geschwindigkeit (speed) und dem Messzeitpunkt (period) nur für die Messstellen, an denen Warnschilder
aufgestellt worden sind (warning = 1), und beantworten Sie die Frage: Hat das Aufstellen von
Verkehrsschildern einen Effekt? Stellen Sie den gefundenen Effekt in einem Mittelwertplot dar.

Mein Lösungsansatz, bzw. bisher geleistetes:

Es wurde der Chi2-Test ausgewählt (als geeignetes statistisches Testverfahren)


#Erstellung der Kreuztabelle für den Chi-Quadrat-Test
Filter <- subset(amis, warning=='1')
Filter2.df <- as.data.frame(Filter)
Filter3 <- xtabs(~ speed + period, data=Filter2.df)
Filter3
# Durchführung des Chi-Quadrat-Test
# 1. Nullhypothese
# H0: Es gibt keinen Zusammenhang zwischen der Aufstellung der Verkehrsschilder und der Geschwindigkeit.
# 2. Testniveau
# alpha=5%
# 3. p-Wert
chisq.test(Filter3)
# p=0,0006473
# 4. Testentscheidung
# p<alpha --> H0 verwerfen, es gibt einen Zusammenhang zwischen der Aufstellung Verkehrsschilder
# und der Geschwindigkeit.

Nun komme ich an dem Punkt nicht weiter, dass der Zusammenhang unter anderem als Mittelwertplot dargestellt werden muss, da wir drei verschiedene Variablen haben: speed, period, warning...

Ich komme einfach nicht weiter, geschweige denn weiß ich nicht einmal ob der bisher geleistete Lösungsansatz richtig ist.

2.)Untersuchen Sie mit einem geeigneten statistischen Testverfahren den Zusammenhang zwischen der
Geschwindigkeit (speed) und dem Messzeitpunkt (period) für alle Messstellen. Berücksichtigen Sie dieses
Mal die weiteren Variablen (warning und pair) in Ihrem Modell, um deren Haupteffekte und deren
kombinierten Effekte herauszurechnen. Hat der Messzeitpunkt einen signifikanten Effekt?

Als statistisches Testverfahren würde ich die Varianzanalyse auswählen, jedoch weiß ich nicht wie ich hier überhaupt anfangen soll...

Ich hoffe man kann mir hier weiterhelfen. Ich sitze schon seit über zehn Stunden an den Aufgaben und langsam aber sicher kommt die Verzweiflung.

Über viele einleuchtende Lösungsansätze würde ich mich sehr freuen!


Vielen Dank und einen schönen Abend!
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Lösungsansätze für Datensatz amis

Beitrag von jogo »

Hallo versteheRnicht,

willkommen im Forum!
Schau mal bitte hier: viewtopic.php?f=11&t=670

Gruß, Jörg
kleineente

Re: Lösungsansätze für Datensatz amis

Beitrag von kleineente »

Hi, ich hätte da eher an eine Korrelationsanalyse gedacht, weil Du ja mit speed eine metrische Variable in den Zusammenhang bringst. Aber ich bin auch der totale Anfänger. Daher für mich zum Interesse, warum hast Du den chiquadrat-Test ausgewählt?
versteheRnicht

Re: Lösungsansätze für Datensatz amis

Beitrag von versteheRnicht »

Hallo Jörg,

danke für den Hinweis auf den Eintrag. Nur leider hat das mit den zwei beschriebenen Aufgabenstellungen nichts zu tun. Hier geht es um eine andere Problematik.

Würde mich immer noch freuen, wenn mir jemand dabei helfen könnte.
versteheRnicht

Re: Lösungsansätze für Datensatz amis

Beitrag von versteheRnicht »

Als Anlage habe ich mal eine Übersicht der verschiedenen in Frage kommenden Test beigefügt.
Wenn ich das richtig sehe, ist speed die metrische variable und period und warning sind die nominalen ?!
Würde dann meinen Ansatz mit dem Chiquadrat Test erstmal verwerfen.
Wenn ich eine Varianzanalyse durchführe bekomme ich aber einen p. Wert der über 1 liegt, was ein Beweis dafür ist das die Berechnung falsch ist, oder?!

Mein Code zur Durchführung der Varianzanalyse

Varianz <-summary(aov(speed~period, data=amis[amis$warning==1,]))
Varianz

Df Sum Sq Mean Sq F value Pr(>F)
period 1 897 897.4 23.51 1.29e-06 ***
Residuals 4160 158814 38.2
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


weiß aber immer noch nicht, ob es der richtige Test ist. Beim Vorschlag, einen Korrelationstest zu nehmen stört mich halt das ich zwei metrische Variablen haben muss. In dem Datensatz ist nur Speed als metrische identifiziert.
Dateianhänge
Übersicht.PNG
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Lösungsansätze für Datensatz amis

Beitrag von EDi »

Wenn ich eine Varianzanalyse durchführe bekomme ich aber einen p. Wert der über 1 liegt, was ein Beweis dafür ist das die Berechnung falsch ist, oder?!
Also ich sehe da nur einen recht kleinen p-Wert (1.29 * 10^-6):

Code: Alles auswählen

R> format( 1.29e-06, scientific = FALSE)
[1] "0.00000129"
weiß aber immer noch nicht, ob es der richtige Test ist.
Hört sich für mich nach einem linearen Model an (aov() ist ein lineares Model).
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
kleineente

Re: Lösungsansätze für Datensatz amis

Beitrag von kleineente »

Genau, speed wäre die metrische Variable, period (Ordinalskala) und warning, pair (Nominalskala) kategoriale Variablen (nominal- und Ordinalskala werden unter kategorial) zusammengefasst.
kleineente

Re: Lösungsansätze für Datensatz amis

Beitrag von kleineente »

Ich stimme bei dem p-Wert edi zu, Du erkennst das auch an den drei kleinen Sternchen und darunter die Legende.
versteheRnicht

Re: Lösungsansätze für Datensatz amis

Beitrag von versteheRnicht »

Ok vielen Dank für die schnellen Antworten. Habe dann einfach den p.Wert falsch interpretiert.
Wenn ich die Aufgabenstellung dann mit der Varianzanalyse löse komme ich zu folgendem Testergebnis

# Interpretation der Ergebnisse
# 1. Nullhypothese
# H0: Das Aufstellen von Verkehrsschildern hat keinen Einfluss auf die Geschwindigkeit
#2 Testniveau
# alpha=5 %
#3 p-Wert
#p=0,00000129
#4 Testentscheidung
#p<alpha --> H0 wird verworfen
#Interpretation: Das Aufstellen von Verkehrsschildern hat einen Einfluss auf die Geschwindigkeit

würde das jemand so bestätigen ?

Würdet ihr dann bei der nächsten Aufgabe wo alle Variablen drin vorkommen, nochmals eine Varianzanalyse durchführen oder das lineare Regressionsmodell?
fide

Re: Lösungsansätze für Datensatz amis

Beitrag von fide »

Hallo zusammen,

es wäre gut zu wissen, wie die einzelnen Begrifflichkeiten (metrisch, nominal, binär, ...) definiert sind, oder ein Buch zu haben, wo sie definiert sind.
Gehen wir davon aus, dass speed metrisch ist.
Und gehen wir weiter davon aus, dass warning binär ist (da es nur 1 oder 2 annehmen kann)
Ferner vermute ich (mangels Wissen) dass der Rest nominal ist.

Wenn Speed die abhängige Variable ist und wir auch die Tatsache ignorieren, dass warning binär ist, dann könnte lineare Regression (laut Liste) passen.
Gehen wir aber davon aus, dass warning die abhängige Variable und auch binär ist, dann käme NUR die logistische Regression in Frage.

Ich habe keine Ahnung, ob meine Gedanken Sinn machen :)

Grüße,
Fide

PS: woher kommen diese Informationen wie 1. 2. 3. etc her? R liefert das nicht aus.
Antworten