Hallo Leute,
ich möchte als Voraussetzung gern prüfen, ob zwischen vorliegenden Variablen ein linearer Zusammenhang besteht.
Dafür habe ich eine Streudiagrammmatrix erstellt. Nun bin ich mir aber recht unsicher ob ich dies als linear bewerten kann, da es meiner Meinung nach Züge linearer Muster als auch nicht linearer Muster gibt.
Gibt es noch andere Möglichkeiten außer der der Streudiagrammmatrix um o.g. zu prüfen?
Liebe Grüße
Bill
Einschätzung der Art des Zusammenhangs zwischen zwei Variablen
Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen
Hallo Bill,
meinst Du sowas wie eine lineare Regression (und deren Gütemaße) oder den Korrelationskoeffizienten?
Gruß, Jörg
meinst Du sowas wie eine lineare Regression (und deren Gütemaße) oder den Korrelationskoeffizienten?
Gruß, Jörg
Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen
Hallo Bill,
ich finde auch, dass Du uns mehr dazu erzählen solltest, was das für Zahlen sind, vor allem wieviele Beobachtungen da vorliegen, ob es darum geht, dass alle Variablenpaare einzeln linear miteinander verknüpft sind oder ob eine Teilmenge der Variablen dazu geeignet ist, eine andere Teilmenge in einem linearen Modell vorherzusagen.
Auch ist es eine andere Frage, ob man Zusammenhänge grob als linear betrachten kann oder ob es ganz extrem wichtig ist, eine kleine nicht-lineare Komponente möglichst nicht zu übersehen.
Der Forenadministrator erlaubt hier auch das Hochladen von Bilder, wenn Du z. B. weitere Meinungen zur Streudiagrammmatrix einholen möchtest.
LG,
Bernhard
ich finde auch, dass Du uns mehr dazu erzählen solltest, was das für Zahlen sind, vor allem wieviele Beobachtungen da vorliegen, ob es darum geht, dass alle Variablenpaare einzeln linear miteinander verknüpft sind oder ob eine Teilmenge der Variablen dazu geeignet ist, eine andere Teilmenge in einem linearen Modell vorherzusagen.
Auch ist es eine andere Frage, ob man Zusammenhänge grob als linear betrachten kann oder ob es ganz extrem wichtig ist, eine kleine nicht-lineare Komponente möglichst nicht zu übersehen.
Der Forenadministrator erlaubt hier auch das Hochladen von Bilder, wenn Du z. B. weitere Meinungen zur Streudiagrammmatrix einholen möchtest.
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen
Hallo Jörg, Hallo Bernhard
ich meinte damit eher den Korrelationskoeffizienten. Dessen Einsatz macht ja nur wirklich Sinn, wenn zwischen den Daten lineare Beziehungen auftreten.
Inwieweit die Annahmen der linearen Abhängigkeit eingeschränkt werden dürfen ist mir noch nicht klar.
Fakt ist, ich bin dabei, eine Hauptkomponentenanalyse durchzuführen; als Voraussetzung dafür wird unter Anderem geschrieben, dass zwischen allen Variablen lineare Abhängigkeiten vorliegen sollten.
Aus diesem Grund bin ich daran interessiert ob eben lineare bzw. nicht lineare statistische Abhängigkeiten vorliegen.
Über die Kernel-PCA möchte ich im Moment nicht nachdenken.
Meine Daten bestehen aus insgesamt etwa 700 Beobachtungen und enthalten 30 Variablen.
Die ersten 10 Variablen beschreiben verschiedene Strukturbeschaffungen und deren Mittelwerte von biologischen Zellkernen. (Bild1)
Die mittleren 10 Variablen beschrieben die mittleren Standardabweichungen jener Strukturbeschaffungen. (Bild2)
Die letzten 10 Variablen beschreiben die ungünstigsten 3 Zellkerne und deren mittlere Strukturbeschaffungen (Bild3)
Vielen Dank und
Liebe Grüße
Bill
P.S.: ich habe den einzelnen plots lediglich eine LOESS Kurve hinzugefügt
ich meinte damit eher den Korrelationskoeffizienten. Dessen Einsatz macht ja nur wirklich Sinn, wenn zwischen den Daten lineare Beziehungen auftreten.
Inwieweit die Annahmen der linearen Abhängigkeit eingeschränkt werden dürfen ist mir noch nicht klar.
Fakt ist, ich bin dabei, eine Hauptkomponentenanalyse durchzuführen; als Voraussetzung dafür wird unter Anderem geschrieben, dass zwischen allen Variablen lineare Abhängigkeiten vorliegen sollten.
Aus diesem Grund bin ich daran interessiert ob eben lineare bzw. nicht lineare statistische Abhängigkeiten vorliegen.
Über die Kernel-PCA möchte ich im Moment nicht nachdenken.
Meine Daten bestehen aus insgesamt etwa 700 Beobachtungen und enthalten 30 Variablen.
Die ersten 10 Variablen beschreiben verschiedene Strukturbeschaffungen und deren Mittelwerte von biologischen Zellkernen. (Bild1)
Die mittleren 10 Variablen beschrieben die mittleren Standardabweichungen jener Strukturbeschaffungen. (Bild2)
Die letzten 10 Variablen beschreiben die ungünstigsten 3 Zellkerne und deren mittlere Strukturbeschaffungen (Bild3)
Vielen Dank und
Liebe Grüße
Bill
P.S.: ich habe den einzelnen plots lediglich eine LOESS Kurve hinzugefügt
-
- Beiträge: 253
- Registriert: Di Jun 27, 2017 12:09 pm
Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen
Gude!
Hast du mal eine PCA durchgeführt, und einen Scree plot gemacht? Meine Erfahrung zum Thema PCA (die eher beschränkt ist, ich komme aus der Anwendungsecke und wende alle möglichen Verfahren auf spezielle Daten an, und nicht spezielle Verfahren auf alle möglichen Daten) gehen eher in die Richtung, dass es sich lohnt, eine PCA durchzuführen und sich die Ergebnisse anzuschauen, und dann zu überlegen ob es Sinn ergibt, eine PCA durchzuführen - Nein, dieser Satz ist nicht das Ergebnis von Day-Drinking. Ansonsten diskutiert man ewig über Bedingungen, Voraussetzungen usw. - Und bei dieser Datenmenge sollte dies auch kein Problem sein. The proof of the pudding is in the eating - Um es mal so zu sagen.
Dank&Gruß
Schubbiaschwilli
Hast du mal eine PCA durchgeführt, und einen Scree plot gemacht? Meine Erfahrung zum Thema PCA (die eher beschränkt ist, ich komme aus der Anwendungsecke und wende alle möglichen Verfahren auf spezielle Daten an, und nicht spezielle Verfahren auf alle möglichen Daten) gehen eher in die Richtung, dass es sich lohnt, eine PCA durchzuführen und sich die Ergebnisse anzuschauen, und dann zu überlegen ob es Sinn ergibt, eine PCA durchzuführen - Nein, dieser Satz ist nicht das Ergebnis von Day-Drinking. Ansonsten diskutiert man ewig über Bedingungen, Voraussetzungen usw. - Und bei dieser Datenmenge sollte dies auch kein Problem sein. The proof of the pudding is in the eating - Um es mal so zu sagen.
Dank&Gruß
Schubbiaschwilli
Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen
Ein hoher Pearson-Korrelationskoeffizient besagt, dass sich die Daten gut durch ein lineares Modell beschreiben lassen. Das bedeutet nicht, dass der wahre Zusammenhang linear ist. Ein niedriger besagt, dass sie sich nicht gut durch ein lineares Modell beschreiben lassen. Es kann entweder kein Zusammenhang bestehen oder ein nicht-linearer. Die Frage nach der Sinnhaftigkeit ist eine Interpretationsfrage. Zwischen texture-mean und smoothness-mean besteht kein linearer Zusammenhang und deshalb wirst Du ein niedriges r finden. Sinnhaftigkeit kann dem nur der Biologe zu- oder absprechen.
In dem Maß, in dem es für den Zellbiologen Sinn macht.Inwieweit die Annahmen der linearen Abhängigkeit eingeschränkt werden dürfen ist mir noch nicht klar.
Mit den Voraussetzungen der PCA bin ich gerade nicht so fit. Sinn einer PCA ist es Komplexität zu reduzieren, Dinge zu vereinfachen, d. h. Details über Bord zu werfen. Die Beziehung zwischen erimeter_mean und area_mean ist visuell beurteilt und in der loess kurvilinear, die PCA wird das zwecks Komplexitätsreduktion zu einer Geraden verbiegen. Die Frage geht an den Biologen: Ist die PCA es wert, die Information über Bord zu werfen, dass diese Zusammenhang nur fast linear aber nicht wirklich linear ist?Fakt ist, ich bin dabei, eine Hauptkomponentenanalyse durchzuführen; als Voraussetzung dafür wird unter Anderem geschrieben, dass zwischen allen Variablen lineare Abhängigkeiten vorliegen sollten.
Aus diesem Grund bin ich daran interessiert ob eben lineare bzw. nicht lineare statistische Abhängigkeiten vorliegen.
Dass einige in fast linearem und andere anscheinend in gar keinem Zusammenhang stehen, dass wird die PCA über verschiedene Ladungen auf verschiedene Komponenten schon selbst herausfinden. Dazu ist sie da.
Das klingt doch nach einem guten Zahlenverhältnis. Dann wird die PCA Dir sagen, welche Variablen Du in einem linearen Modell zusammenfassen kannst und welche nicht. Offensichtlich U-förmige Zusammenhänge, die ein lineares Modell als Nichtzusammenhang fehlerkennen würde, hast Du in Deiner SPLOM mal nicht.Meine Daten bestehen aus insgesamt etwa 700 Beobachtungen und enthalten 30 Variablen.
HTH,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen
Nachtrag in Kenntnis von schubbiaschwillis Kommentar (die Beitragserstellung hat sich da überschnitten):
Nachdem ich Deine Streudiagramme gesehen und darin keine wilden Abweichungen von Normalität gesehen habe würde ich es wie schubbiaschwilli halten, einfach mal einen Screeplot und eine PCA mit einer der gängigen Rotationen rechnen und schauen, ob was sinnstiftendes dabei herauskommt.
LG,
Bernhard
Nachdem ich Deine Streudiagramme gesehen und darin keine wilden Abweichungen von Normalität gesehen habe würde ich es wie schubbiaschwilli halten, einfach mal einen Screeplot und eine PCA mit einer der gängigen Rotationen rechnen und schauen, ob was sinnstiftendes dabei herauskommt.
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte