ANCOVA mit stetigen Werte und Faktoren

Varianzanalyse, Diskriminanzanalyse, Kontingenzanalyse, Faktorenanalyse, Clusteranalyse, MDS, ....

Moderator: EDi

Antworten
Spielkind
Beiträge: 5
Registriert: Fr Jun 12, 2020 1:11 pm

ANCOVA mit stetigen Werte und Faktoren

Beitrag von Spielkind »

Hallo wertes Forum,

dies ist mein erster Eintrag. Und obwohl ich mich jetzt schon seid längerem aus privaten und beruflichen Interesse in Statistik und R eingetaucht bin, werden meine Formulierungen sicherlich nicht mathematisch perfekt sein...

Ich blicke gerade -getrieben durch ein weiteres, neues Statistik-Lehrbuch- auf die Ergebnisse eines Versuchs zurück, um in Zukunft besser bei der Anwendung von Ancovas mit R zu werden.
Leider werde ich nicht ganz schlau aus den Ausgaben.
Lässt man sich die Daten graphisch darstellen, kann man ganz klar eine gewisse Interaktion erkennen.
Gegen über dem "Haupteffekt" sind diese aber eher schwach korreliert (Korrelationsmatrix)

Erklärung zu den Daten: ValueA und ValueB sind Messwerte zur Toleranz von Bauteil A und Bauteil B. Der Factor beinhaltet zwei unterschiedliche Hersteller von Bauteil B. Die abhändige Variable Result ist das Messergebnis, wenn alles montiert ist.
Die Daten wurden in einem quasi voll-faktoriellen Test erzeugt. Jedoch sind die Stufen in der Realität nicht sauber erzeugbar. Deshalb haben die gut und die schlecht Werte der Toleranz stetige/kontinuierlich Werte und nicht einfach gut/schlecht-Stufen.

Wenn ich das Model lm(Result~ValueA * ValueB * Factor_c) bilde, erhalte ich folgende Ausgaben(siehe unten)
Bei diesen Ancova-Tabellen wird keine Interaktion als signifikant angeben (Irrtumswahrscheinlichkeit 0,05).
Wenn ich allerdings die Interaktionen zwischen "ValueA" und "ValueB" einzeln ausführe, also z.B. Result~ValueA:ValueB erhalte ich ganz klar eine Interaktion. Für Typ II und III

Mich verwirrt das Ergebnis, da für das LM beschrieben ist, dass bei Modellbildung mit * alle Interaktionen unabhängig von Einzelnen/Hauptfaktoren berechnet werden sollen. Das ist nicht nur ein Notations-Problem. Mit lm(Result~ValueA + ValueB + Factor_c)^3 oder lm(Result~ValueA + ValueB + Factor_c + ValueA:ValueB ....) kommt nichts sinnvolleres raus.

Was stimmt denn nun? Gibt es Interaktionen(zuvor paarweise betrachten) und deshalb darf ich die Signifikanz der Hauptfaktoren nicht werten? Oder gibt es keine?
Der Typ III zeigt bei Inklusion des "Factor_C" auch gar keine Signifikanz an. Ohne "Factor_c" ist wenigstens wieder ValueB als signifikant an.

Erwarte ich da zuviel von der Funktion? Müsste ich für Typ III mit allen unabhängigen Variablen/Eingabe-Faktoren an den Kontrasten drehen?

Code: Alles auswählen

summary(MainsInteractions)

    Min      1Q  Median      3Q     Max 
-20.303  -6.854  -2.432   3.409  32.887 

Coefficients:
                                  Estimate Std. Error t value Pr(>|t|)
(Intercept)                          24.70      78.86   0.313    0.758
ValueA                             -116.91    2081.08  -0.056    0.956
ValueB                               46.74    1255.31   0.037    0.971
Factor_c[T.Level2]                  200.95     248.56   0.808    0.431
ValueA:ValueB                      3345.32   33538.11   0.100    0.922
ValueA:Factor_c[T.Level2]         -8560.65    8949.04  -0.957    0.353
ValueB:Factor_c[T.Level2]         -5067.42    3879.12  -1.306    0.210
ValueA:ValueB:Factor_c[T.Level2] 204420.42  140847.31   1.451    0.166

Residual standard error: 13.99 on 16 degrees of freedom
Multiple R-squared:  0.4933,	Adjusted R-squared:  0.2717 
F-statistic: 2.226 on 7 and 16 DF,  p-value: 0.08775
________________
Rcmdr>  Anova(MainsInteractions, type = "II")
Anova Table (Type II tests)

Response: Result
                        Sum Sq Df F value  Pr(>F)  
ValueA                  100.82  1  0.5151 0.48328  
ValueB                 1662.92  1  8.4964 0.01012 *
Factor_c                  0.49  1  0.0025 0.96055  
ValueA:ValueB            41.15  1  0.2102 0.65274  
ValueA:Factor_c         792.26  1  4.0479 0.06138 .
ValueB:Factor_c         320.67  1  1.6384 0.21879  
ValueA:ValueB:Factor_c  412.28  1  2.1065 0.16600  
Residuals              3131.54 16                  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

________________
Rcmdr>  Anova(MainsInteractions, type = "III")
Anova Table (Type III tests)

Response: Result
                        Sum Sq Df F value Pr(>F)
(Intercept)              19.20  1  0.0981 0.7582
ValueA                    0.62  1  0.0032 0.9559
ValueB                    0.27  1  0.0014 0.9708
Factor_c                127.92  1  0.6536 0.4307
ValueA:ValueB             1.95  1  0.0099 0.9218
ValueA:Factor_c         179.10  1  0.9151 0.3530
ValueB:Factor_c         334.00  1  1.7065 0.2099
ValueA:ValueB:Factor_c  412.28  1  2.1065 0.1660
Residuals              3131.54 16               
RcmdrMsg: [5] WARNUNG: Typ III Test erfordert Sorgfalt bei Kontrasten.
________________
Rcmdr>  Anova(LinearModel.3, type = "II")
Anova Table (Type II tests)

Response: Result
              Sum Sq Df F value  Pr(>F)  
ValueA:ValueB 1166.2  1  5.1162 0.03393 *
Residuals     5014.6 22                  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
________________
Rcmdr>  Anova(LinearModel.3, type = "III")
Anova Table (Type III tests)

Response: Result
              Sum Sq Df F value  Pr(>F)  
(Intercept)    581.9  1  2.5528 0.12437  
ValueA:ValueB 1166.2  1  5.1162 0.03393 *
Residuals     5014.6 22                  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
RcmdrMsg: [7] WARNUNG: Typ III Test erfordert Sorgfalt bei Kontrasten.
Zuletzt geändert von jogo am Fr Jun 12, 2020 2:41 pm, insgesamt 1-mal geändert.
Grund: Formatierung verbessert. http://forum.r-statistik.de/viewtopic.php?f=20&t=29
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: ANCOVA mit stetigen Werte und Faktoren

Beitrag von EDi »

Ich würde das so interpretieren

Die dreifach Interaktion ist da, allerdings nicht statistisch signifilamt nachzuweisen (p>0.05). Ob sie von praktischer Relevanz ist kann man so nicht einschätzen. Das könnte an de wenigen Daten welche für dieses komplexe Modell liegen (8 Parameter bei 24 Beobachtungen), welches sich auch im großen Fehler der dreifach Interaktion wiederspiegelt.

Du könntest die dreifach Interaktion rausnehmen (weniger komplexes model) und mal schauen was die zweifach Interaktionen so sagen.
Result~ValueA:ValueB erhalte ich ganz klar eine Interaktion.
Also mir ist ganz und gar nicht klar wie man das Model interpretieren könnte - die Abweichung vom gemeinsamen intercept für jede der Kombinationen?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Spielkind
Beiträge: 5
Registriert: Fr Jun 12, 2020 1:11 pm

Re: ANCOVA mit stetigen Werte und Faktoren

Beitrag von Spielkind »

Hi EDi,

ja- die Daten sind natürlich dürftig. Wie so oft bei einer DoE mit teuren Teilen und aufwendigen Messungen...
Kann durchaus sein, dass das wirklich schon die Erklärung ist. Das korrigierte R² ist auch "schwach".

Ich noch ein paar Grafiken erzeugt. Ich hoffe das ergibt ein klareres Bild.
Dateianhänge
Streudiagramm_ValueB.png
Streudiagramm_ValueB.png (7.2 KiB) 711 mal betrachtet
Streudiagramm_ValueA.png
Streudiagramm_ValueA.png (6.44 KiB) 711 mal betrachtet
Zuletzt geändert von Spielkind am Fr Jun 12, 2020 9:32 pm, insgesamt 2-mal geändert.
Spielkind
Beiträge: 5
Registriert: Fr Jun 12, 2020 1:11 pm

Re: ANCOVA mit stetigen Werte und Faktoren

Beitrag von Spielkind »

Und hier noch die diagnostischen Grafiken und eine andere Darstellung der Streumatrix mit QQ-Plot in der Diagonalen
Dateianhänge
Streudiagram-Matrix.png
Streudiagram-Matrix.png (11.51 KiB) 710 mal betrachtet
Uebersicht.png
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: ANCOVA mit stetigen Werte und Faktoren

Beitrag von EDi »

Value A und Level sind stark korreliert, d.h. wen ich weiß das ValueA klein ist, dann ist das Level vermutlich 2. Ist das beabsichtigt?

Wieso gibt's bei mittleren ValueB werten so eine hohe Streuung?

Was ist das Ziel der Übung?
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Spielkind
Beiträge: 5
Registriert: Fr Jun 12, 2020 1:11 pm

Re: ANCOVA mit stetigen Werte und Faktoren

Beitrag von Spielkind »

EDi hat geschrieben: Sa Jun 13, 2020 1:24 am Value A und Level sind stark korreliert, d.h. wen ich weiß das ValueA klein ist, dann ist das Level vermutlich 2. Ist das beabsichtigt?
Beabsichtigt ist das nicht. Hat sich so ergeben. (Oder R hat da die Faktoren hier mit den interne Werten verarbeitet - also Level1=1, Level2=2. Wollen wir aber mal nicht hoffen)
EDi hat geschrieben: Sa Jun 13, 2020 1:24 am Wieso gibt's bei mittleren ValueB werten so eine hohe Streuung?
Naja - ist eben eine DoE. Ich habe versucht möglichst so - darf man das hier sagen? - Kontraste zu erzeugen.
Dazu habe ich eine Stichprobe reale Bauteile vermessen. Aus dieser habe ich mir dann die Bauteile mit den größten und die kleinsten Werten rausgeholt. Dadurch ergaben sich dann eben große Streuungen. Selbst innerhalb der "Stufe"
EDi hat geschrieben: Sa Jun 13, 2020 1:24 am Was ist das Ziel der Übung?
Die Aufgabenstellung sah wie folgt aus:
Beim Montieren von zwei Bauteilen wurde in ca. 3% der Fälle der kritische Ergebnis-Wert von 63 überschritten.
Ziel ist aber den Ausschuss unter 1% zu halten.
Um nun herauszufinden, an welcher "Schraube man drehen muss", damit man das Ergebnis erreicht, wurde der Versuch gestartet.
Es ging also darum herauszufinden, welches Bauteil/Komponente den größten bzw. den signifikanten Einfluss auf das Ergebnis hat.
Gleichzeitig gab es für Bauteil/Komponente A zwei Hersteller, welche sich in ihrer Präzision unterschieden.

Im Ergebnis glauben wir festgestellt zu haben, dass Bauteil B am meisten Einfluß hat. Das Ergebnis aber durchaus auch vom Hersteller abhängt.
Es gibt also mehrere Einflussfaktoren, aber die Optimierung von Bauteil B würde genügen, um das Ziel zu erreichen.

Um zu dieser Aussage zu gelangen, haben wir auf die alleinige Signifikanz (ANCOVA Typ II) von Bauteil B verwiesen.
Und zusätzlich die Aussage aus dem Statistik-Test mit dem Streudiagramm und der Korrelationsmatrix(Effekt) untermauert.

Die Frage sie ich mir stelle ist: Durfte man die Signifikanz aus dem Test überhaupt verwenden. Oder verbietet sich das wegen der Interaktion?

Hier noch die Rohdaten. Sind ja nicht so viele ;-)

Code: Alles auswählen

Factor_c;ValueA;ValueB;Result
Level1;0,039;0,119;40,366
Level1;0,034;0,119;41,26
Level1;0,039;0,054;19,265
Level1;0,034;0,054;25,455
Level1;0,052;0,069;48,987
Level1;0,029;0,069;53,648
Level1;0,052;0,043;28,631
Level1;0,029;0,043;30,55
Level1;0,034;0,075;23,882
Level1;0,044;0,075;19,847
Level1;0,034;0,072;23,608
Level1;0,044;0,072;37,97
Level2;0,026;0,119;47,369
Level2;0,027;0,119;54,336
Level2;0,026;0,054;17,815
Level2;0,027;0,054;21,092
Level2;0,031;0,069;66,47
Level2;0,026;0,069;59,22
Level2;0,031;0,043;13,975
Level2;0,026;0,043;10,315
Level2;0,027;0,075;28,755
Level2;0,024;0,075;22,446
Level2;0,027;0,072;13,456
Level2;0,024;0,072;9,45

Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: ANCOVA mit stetigen Werte und Faktoren

Beitrag von EDi »

Hmm, es scheint als ob nur mittlerer B Werte und kleine A Werte bzw. Level 2 (kann man ja nicht trennen), den Werte 63 reißen. Genau dort hat's aber auch eine riesen Streuung.

Ich würde an der Streuung arbeiten diese zu verringern um von der 63 fern zu bleiben...
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
Spielkind
Beiträge: 5
Registriert: Fr Jun 12, 2020 1:11 pm

Re: ANCOVA mit stetigen Werte und Faktoren

Beitrag von Spielkind »

Klingt also so als ob das Statistik-Problem mit dem eigentlichen Problem zu tun hat.

Es ging ja gerade darum zu klären, "wer" dafür verantwortlich ist, dass bei ca. 3% die Spezifikation gerissen wurde.
In diesen Bereich brechen die Ergebnis-Werte auch aus der Normalverteilung aus. (Wir haben ca. 300 Messung vom Resultat. Ist eine Rayleigh-Verteilung. Lässt sich auch nur bedingt in eine Normalverteilung transformieren.)

@EDi: Vielen Dank für Deine Hilfe
Antworten