EDi hat geschrieben:Was sind denn die 97212 Reihen? So wie dein Bild ausschaut, nimmst du diese als unabhängige Beobachten an - ist das auch so haltbar? Oder sind die irgendwie korreliert?
Das sind Genexpressionswerte in der Einheit FPKM. Eine Zelle produziert Arbeitskopien von Genen, die gebraucht werden und deren Häufigkeit kann in einem Verfahren namens RNA-seq gemessen werden. Die Idee ist, dass eine größere Zahl von Arbeitskopien dafür spricht, dass diese Gene für die Zelle wirklich entscheidend sind. (Wobei das nicht immer zutreffend ist, wie in Einzelfällen bereits eindeutig nachgewiesen werden konnte)
Die Replikate sind weitgehend unabhängig (urpsrünglich aus den gleichen Zellen erzeugt, aber als eigene Krebszelllinie etabliert und kultiviert), sodass hier eine Korrelation dafür spräche, dass die Genexpression eine biologische Bedeutung hat.
Innerhalb eines Replikats sind die ~97.000 Werte nicht unabhängig, denn Gene sind in Signalkaskaden organisiert, d.h. die Expression eines Gens kann die Expression weiterer Gene anstoßen oder abschalten. Leider sind nicht alle Signalkaskaden bekannt und mitunter im Krebsfall auch von gesunden Zellen abweichend. Die Werte innerhalb eines Replikats als unabhängig anzusehen ist daher leider trotz des Wissens um ein eigentlich gegenteiliges Funktionsprizip unumgänglich.
EDi hat geschrieben:Innerhalb eine Replikats (=Spalten1-4) hast du beide Faktoren drin?
Nein, es handelt sich dabei ebenfalls um eine sträflich grobe Vereinfachung der tatsächlichen biologischen Komplexität. Bei den Replikaten handelt es sich nämlich noch nicht einmal um die Werte einer einzelnen Zelle sondern um den Durchschnitt durch je eine Population von rund einer Million heterogener Krebszellen. Letztlich könnte es also sein, dass ein mittelmäßig exprimiertes Gen in 10% der Zellen extrem stark und in den anderen 90% gar nicht exprimiert wird.
Genauso verhält es sich mit der Interaktion mit dem Enhancer. Diese Interaktion kann nicht direkt gemessen werden sondern nur aus Daten gemutmaßt werden, die die dreidimensionale Struktur des Genoms (in Chromosomen) berücksichtigt. Aus der Kenntnis wo sich ein Gen und wo sich ein Enhancer befindet kann man darauf schließen, ob es plausibel ist, dass diese sich berühren könnten (so wie es unplausibel ist, dass du dich mit deinem großen Zeh selbst zwischen den Schulterblättern am Rücken kratzen kannst
). Aber nur weil diese Interaktion theoretisch möglich wäre, heißt das natürlich noch nicht, dass sie tatsächlich stattfindet - als Indiz dafür, dass die überwiegende Zahl der vorhergesagten Interaktionen zumindest phasenweise stattfindet, möchte dich den formalen Test machen und sehen, ob es eine "unerklärliche" Erhöhung der Genexpressionswerte gibt, die möglicherweise auf die Interaktion mit Enhancern zurückzuführen ist.
EDi hat geschrieben:Was sind das für Werte? Scheinen alle >0 zu sein? (oder ist die 0 auch dabei?).
Es gibt auch einige tausend Werte, die exakt 0 sind sowie sehr viele, die nahe 0 sind. Ich habe, weil ich die Log-Skalierung brauchte diese also ausgeschlossen. Ich habe auch einige wenige Ausreißer ganz oben ausgeschlossen, weil es sich dabei sehr sicher um technische Artefakte/Messfehler handelt.
Da gerade der t.test sehr sensitiv je nach ausgeschlossenen Werten mal die Alternativhypothese angenommen oder abgeleht hat, bin ich misstrauisch geworden, ob der so genutzt werden kann.
EDi hat geschrieben:Für mich hört sich das eher nach einem GLMM an.
Das "G" für Generalized um eine anderer Verteilung als die normale zu modellieren (Gamma? Tweedie?)
Das "LM" ist klar
Das "M" für mixed um die hierarchische Struktur (Gene innerhalb eines replikats?) zui brücksichtigen.
Danke Bernhard und EDi für die Tipps - werde mich mal mit Messwiederholungs-ANOVA und GLMMs beschäftigen. Egal ob fertig gekocht oder nicht - ein paar Stichworte oder Ideen zum weitersuchen sind immer hilfreich. DANKE!
PS: Das Paper mit den Methylierungswerten, wofür ihr mir vor knapp zwei Jahren die GAM-Formeln für ausgearbeitet habt, ist leider im Papierkorb gelandet. Die Hauptautorin hat im Streit das Labor verlassen und das Manuskript wurde nie eingereicht...wobei auch das ganze Projekt schlecht konzipiert war. Das aktuelle ist nicht besser