Test auf Homogenität schief verteilter Werte?
Verfasst: Di Dez 06, 2016 10:37 pm
Hallo liebe R-Forum Leser,
Ich brauche eure Hilfe bei der Wahl des richtigen statistischen Tests und dessen korrekter Interpretation. Ausgangspunkt sind numerische Genexpressionsdaten von denen ich vier biologische Replikate habe:
Für rund 10.000 dieser Werte kann ich aus deinem anderen Datensatz ableiten, dass die betreffenden Gene mit einem "Enhancer" interagieren sollten. Dieser tut, was der Name andeutet - er sollte deren Genexpression verstärken. Die Vorhersage wäre also, dass die Werte der interagierenden Gene größer sein sollten als jene, für die keine Interaktion festgestellt werden konnte und das möchte ich formal testen.
Ich habe dazu schon mal mit t.test, ks.test und wilcox.test herumgespielt, aber frage mich, ob die Tests aus folgenden Gründen dafür überhaupt geeignet sind:
Vielen Dank schonmal
Matthias
Ich brauche eure Hilfe bei der Wahl des richtigen statistischen Tests und dessen korrekter Interpretation. Ausgangspunkt sind numerische Genexpressionsdaten von denen ich vier biologische Replikate habe:
Code: Alles auswählen
str(genes.fpkm)
'data.frame': 97212 obs. of 5 variables:
$ WT.CKH_0 : num 1.53e+02 0.00 8.33e-08 1.80e+01 4.25e-07 ...
$ WT.CKH_1 : num 1.68e+02 0.00 0.00 2.30e+01 2.87e-07 ...
$ WT.CKH_2 : num 1.35e+02 0.00 0.00 2.37e+01 1.31e-08 ...
$ WT.CKH_3 : num 1.64e+02 0.00 0.00 1.97e+01 1.05e-12 ...
$ covered_by_enhancer: Factor w/ 2 levels "no significant interaction",..: 2 1 1 1 1 1 1 2 1 1 ...
levels(genes.fpkm$covered_by_enhancer)
[1] "no significant interaction" "interacting with enhancer"
Für rund 10.000 dieser Werte kann ich aus deinem anderen Datensatz ableiten, dass die betreffenden Gene mit einem "Enhancer" interagieren sollten. Dieser tut, was der Name andeutet - er sollte deren Genexpression verstärken. Die Vorhersage wäre also, dass die Werte der interagierenden Gene größer sein sollten als jene, für die keine Interaktion festgestellt werden konnte und das möchte ich formal testen.
Ich habe dazu schon mal mit t.test, ks.test und wilcox.test herumgespielt, aber frage mich, ob die Tests aus folgenden Gründen dafür überhaupt geeignet sind:
- Die Verteilung der Werte ist schief, d.h. viele Gene sind nicht oder praktisch nicht exprimiert, einige wenige extreme Ausreißer. Ein Test auf abweichende Mittelwerte wie der t.test erscheint mir nicht ausreichend.
- Der Stichprobenumfang ist für "no significant interaction" ungefähr um den Faktor 8 größer
- Ich habe die Replikate einfach mit rowMeans() auf einen Mittelwert pro Gen eingedampft und dann diese Werte als Stichprobe benutzt. Ist das legitim, oder sollte ich die Einzelwerte der Replikate nutzen (d.h. entweder die Tests für jedes Replikat einzeln machen oder alle Einzelwerte aufnehmen?)
Vielen Dank schonmal
Matthias