Seite 1 von 1

Vorhersagemodell gewünscht

Verfasst: Di Aug 07, 2018 3:05 pm
von wbart
Hallo,
ich habe folgende Daten zur Verfügung gestellt bekommen:

Code: Alles auswählen

> Zusammenfassung_der_Daten
   Substanz     y  x1  x2   x3        x4  x5
1         A 55.73  88 114 0.80        20  28
2         B 12.99  35 194 1.01        NA  64
3         C  3.40  81 131 0.46        20  28
4         D  7.26  NA  NA   NA        NA  NA
5         E 16.23 102 119 1.60        36  68
6         F 11.38  59 104 1.00        17  NA
7         G  5.46  NA  NA   NA        NA  NA
8         H  8.19  NA  NA   NA        NA  NA
9         I 49.53  88 114 0.80        20  28
10        J 10.18  60  76   NA        NA  NA
11        K 25.22  NA 100   NA        NA  NA
12        L 21.19  96  94   NA        NA  NA
13        M  6.80  76 165   NA        NA  NA
14        N 11.97  66 193   NA        NA  NA
15        O 13.20  99 194 1.52         3   8
16        P 17.45  79 137 1.12        12  27
> 
mein Chef möchte nun am liebsten, dass ich ein Modell erschaffen könnte wodurch ich mit den Parametern x1-x5, y vorhersagen kann. Jetzt stellt die Spalte Substanz unterschiedliche Bedingungen dar. Wie würdet ihr vorgehen?

Ich bin leider mathematischer Laie und auch in R erst ganz am Anfang und hoffe daher mit Regressionsmodelle zumindest schon mal die richtige Rubrik gefunden zu haben.

Gruß
Werner

Gruß

Re: Vorhersagemodell gewünscht

Verfasst: Di Aug 07, 2018 3:28 pm
von bigben
Das lässt jetzt die FRage offen, ob die Substanz in die Vorhersage einbezogen werden soll, oder nicht. Bislang soll ja nur x1 bis x5 als Vorhersagefaktor dienen.

Re: Vorhersagemodell gewünscht

Verfasst: Di Aug 07, 2018 3:34 pm
von bigben
Weitere Nachfrage: Da kommen ganz schön viele NA drin vor. Ist es ok, wenn nur vollständige Zeilen (ohne NA) zu einem Ergebnis führen?

Dritte Nachfrage: Gib uns mal ein paar Beispieldaten zum Spielen, z. B. den Output von

Code: Alles auswählen

dput(head(daten, 200))
Vorschlag: Angenommen Deine Daten stecken in einem Dataframe namens daten. Wie gefällt Dir

Code: Alles auswählen

library(rpart)
model <- rpart(y ~ x1 + x2 + x3 + x4 + x5, data = daten)
plot(model)
text(model)
summary(model)
LG,
Bernhard

Re: Vorhersagemodell gewünscht

Verfasst: Di Aug 07, 2018 4:43 pm
von wbart
Hallo bigben,
ist denn ein Modell ohne Einbeziehung der Substanzen denkbar? Das wäre ja im Prinzip nur ein Datensatz. Wenn das geht könnte man evtl. für jede Substanz ein Modell erstellen und dann die unterschiedlichen Modelle vergleichen.
Alternativ wäre natürlich ein Modell das alle Bedingungen erklärt "sicherlich wünschenswert"

Bei den NAs habe ich auch Bauchschmerzen. Letztendlich habe ich vor beide Versionen einmal mit NAs und einmal ohne zu berechnen, da es ohne Nas schon sehr wenig Daten sind.

Dein Modell werd ich gleich mal kopieren und schauen was es macht. Danke dafür.

Gruß
Werner

Re: Vorhersagemodell gewünscht

Verfasst: Mi Aug 08, 2018 9:49 am
von bigben
wbart hat geschrieben: Di Aug 07, 2018 4:43 pmist denn ein Modell ohne Einbeziehung der Substanzen denkbar?
Da ich keine Ahnung habe, welche Rolle die Substanzen in dem Spiel spielen, habe ich damit keine Probleme. Wenn das sachwissenschaftlich nicht denkbar ist, dann solltest Du das bei Gelegenheit erwähnen.
ich habe folgende Daten
Klingt nach nur einem Datensatz.
Das wäre ja im Prinzip nur ein Datensatz.
Klingt so, als wärest Du mit nur einem Datensatz nicht zufrieden. Um es mit Jörg zu sagen: "Meine Glaskugel ist gerade kaputt".
Wenn das geht könnte man evtl. für jede Substanz ein Modell erstellen und dann die unterschiedlichen Modelle vergleichen.
Dass Du unterschiedliche Modelle erstellen willst und diese nachher miteinander vergleichen willst, das war bisher nicht klar. Es gibt Modelle, die können gut mit kleinen Datenmengen umgehen und Modelle, die brauchen große Datenmengen, es gibt Modelle, die mit NA besser und solche, die mit NA schlechter umgehen können. Es gibt Modelle, die sich für Modellvergleiche mehr eignen und solche, die es weniger tun und es gibt Modelle, in die man Vorwissen über mögliche Zusammenhänge besser einfließen lassen kann und solche, bei denen man das weniger kann. Und dann gibt es Modelle, die für Signifikanztestungen besser geeignet sind als andere.
Dein Modell werd ich gleich mal kopieren und schauen was es macht. Danke dafür.
Was ich vorgeschlagen habe ist ein Regressionsbaum. Das ist ein Verfahren, dass wenig Kenntnisse über die Zusammenhänge erfordert, aber dennoch schon mit mittelkleinen Datenmengen auskommt. Es ist auch ein Verfahren, dass mit NA ganz gut umgehen kann. Es ist kein Verfahren, dass besonders stabil ist: Einige wenige Datensätze mehr oder weniger können den Baum ganz anders aussehen lassen und es ist auch kein Verfahren, dass sich besonders zum Vergleich verschiedener Modelle anbietet. Es ist aber ein Verfahren, bei dem man ganz gut auch die Substanz als Prädiktor mit einfließen lassen kann. Kurzum, ein guter Allrounder, wenn man noch keine weiteren Informationen hat.


Im Statistik-Forum habe ich mal folgenden Beitrag geschrieben: Ich schlage vor, dass Du Dir den durchliest und danach Dein Problem nochmal genauer spezifizierst: http://www.statistik-forum.de/nutzung-d ... t6682.html


Es sei am Rande erwähnt, dass eine verantwortliche Modellauswahl nicht "mal eben so" aus dem Ärmel geschüttel werden kann. Wenn das also nur so eine Spielerei am Rande ist, dann ist alles ok. Wenn es bei diesem Modell um etwas wichtiges geht, dann zitiere ich mich mal selbst aus einem Thread in den FAQ:
Bedenke auch: Ein Forum hilft oft super, wenn es darum geht, die richtige Funktion, das richtige Funktionsargument oder einen Syntaxfehler zu finden. Die Planung einer Arbeit, die Gesamtheit der Auswertung und alle großen Projekte sind für dieses Format wenig geeignet. In manchen Fällen ist der richtige Weg der zur Statistikberatung, auch wenn das manchmal Geld kostet.
LG,
Bernhard

Re: Vorhersagemodell gewünscht

Verfasst: Mi Aug 08, 2018 3:27 pm
von wbart
Hi hi er hat Geld kostet gesagt :)