Einschätzung der Art des Zusammenhangs zwischen zwei Variablen

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
Bill
Beiträge: 35
Registriert: Fr Mär 06, 2020 8:04 pm

Einschätzung der Art des Zusammenhangs zwischen zwei Variablen

Beitrag von Bill »

Hallo Leute,

ich möchte als Voraussetzung gern prüfen, ob zwischen vorliegenden Variablen ein linearer Zusammenhang besteht.

Dafür habe ich eine Streudiagrammmatrix erstellt. Nun bin ich mir aber recht unsicher ob ich dies als linear bewerten kann, da es meiner Meinung nach Züge linearer Muster als auch nicht linearer Muster gibt.

Gibt es noch andere Möglichkeiten außer der der Streudiagrammmatrix um o.g. zu prüfen?

Liebe Grüße

Bill
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen

Beitrag von jogo »

Hallo Bill,

meinst Du sowas wie eine lineare Regression (und deren Gütemaße) oder den Korrelationskoeffizienten?

Gruß, Jörg
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen

Beitrag von bigben »

Hallo Bill,

ich finde auch, dass Du uns mehr dazu erzählen solltest, was das für Zahlen sind, vor allem wieviele Beobachtungen da vorliegen, ob es darum geht, dass alle Variablenpaare einzeln linear miteinander verknüpft sind oder ob eine Teilmenge der Variablen dazu geeignet ist, eine andere Teilmenge in einem linearen Modell vorherzusagen.
Auch ist es eine andere Frage, ob man Zusammenhänge grob als linear betrachten kann oder ob es ganz extrem wichtig ist, eine kleine nicht-lineare Komponente möglichst nicht zu übersehen.
Der Forenadministrator erlaubt hier auch das Hochladen von Bilder, wenn Du z. B. weitere Meinungen zur Streudiagrammmatrix einholen möchtest.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Bill
Beiträge: 35
Registriert: Fr Mär 06, 2020 8:04 pm

Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen

Beitrag von Bill »

Hallo Jörg, Hallo Bernhard

ich meinte damit eher den Korrelationskoeffizienten. Dessen Einsatz macht ja nur wirklich Sinn, wenn zwischen den Daten lineare Beziehungen auftreten.

Inwieweit die Annahmen der linearen Abhängigkeit eingeschränkt werden dürfen ist mir noch nicht klar.

Fakt ist, ich bin dabei, eine Hauptkomponentenanalyse durchzuführen; als Voraussetzung dafür wird unter Anderem geschrieben, dass zwischen allen Variablen lineare Abhängigkeiten vorliegen sollten.
Aus diesem Grund bin ich daran interessiert ob eben lineare bzw. nicht lineare statistische Abhängigkeiten vorliegen.

Über die Kernel-PCA möchte ich im Moment nicht nachdenken.

Meine Daten bestehen aus insgesamt etwa 700 Beobachtungen und enthalten 30 Variablen.

Die ersten 10 Variablen beschreiben verschiedene Strukturbeschaffungen und deren Mittelwerte von biologischen Zellkernen. (Bild1)
Die mittleren 10 Variablen beschrieben die mittleren Standardabweichungen jener Strukturbeschaffungen. (Bild2)
Die letzten 10 Variablen beschreiben die ungünstigsten 3 Zellkerne und deren mittlere Strukturbeschaffungen (Bild3)

Bild
Bild
Bild

Vielen Dank und

Liebe Grüße

Bill


P.S.: ich habe den einzelnen plots lediglich eine LOESS Kurve hinzugefügt
schubbiaschwilli
Beiträge: 253
Registriert: Di Jun 27, 2017 12:09 pm

Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen

Beitrag von schubbiaschwilli »

Gude!

Hast du mal eine PCA durchgeführt, und einen Scree plot gemacht? Meine Erfahrung zum Thema PCA (die eher beschränkt ist, ich komme aus der Anwendungsecke und wende alle möglichen Verfahren auf spezielle Daten an, und nicht spezielle Verfahren auf alle möglichen Daten) gehen eher in die Richtung, dass es sich lohnt, eine PCA durchzuführen und sich die Ergebnisse anzuschauen, und dann zu überlegen ob es Sinn ergibt, eine PCA durchzuführen - Nein, dieser Satz ist nicht das Ergebnis von Day-Drinking. Ansonsten diskutiert man ewig über Bedingungen, Voraussetzungen usw. - Und bei dieser Datenmenge sollte dies auch kein Problem sein. The proof of the pudding is in the eating - Um es mal so zu sagen.

Dank&Gruß
Schubbiaschwilli
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen

Beitrag von bigben »

Bill hat geschrieben: Mo Mai 11, 2020 2:00 pmich meinte damit eher den Korrelationskoeffizienten. Dessen Einsatz macht ja nur wirklich Sinn, wenn zwischen den Daten lineare Beziehungen auftreten.
Ein hoher Pearson-Korrelationskoeffizient besagt, dass sich die Daten gut durch ein lineares Modell beschreiben lassen. Das bedeutet nicht, dass der wahre Zusammenhang linear ist. Ein niedriger besagt, dass sie sich nicht gut durch ein lineares Modell beschreiben lassen. Es kann entweder kein Zusammenhang bestehen oder ein nicht-linearer. Die Frage nach der Sinnhaftigkeit ist eine Interpretationsfrage. Zwischen texture-mean und smoothness-mean besteht kein linearer Zusammenhang und deshalb wirst Du ein niedriges r finden. Sinnhaftigkeit kann dem nur der Biologe zu- oder absprechen.
Inwieweit die Annahmen der linearen Abhängigkeit eingeschränkt werden dürfen ist mir noch nicht klar.
In dem Maß, in dem es für den Zellbiologen Sinn macht.
Fakt ist, ich bin dabei, eine Hauptkomponentenanalyse durchzuführen; als Voraussetzung dafür wird unter Anderem geschrieben, dass zwischen allen Variablen lineare Abhängigkeiten vorliegen sollten.
Aus diesem Grund bin ich daran interessiert ob eben lineare bzw. nicht lineare statistische Abhängigkeiten vorliegen.
Mit den Voraussetzungen der PCA bin ich gerade nicht so fit. Sinn einer PCA ist es Komplexität zu reduzieren, Dinge zu vereinfachen, d. h. Details über Bord zu werfen. Die Beziehung zwischen erimeter_mean und area_mean ist visuell beurteilt und in der loess kurvilinear, die PCA wird das zwecks Komplexitätsreduktion zu einer Geraden verbiegen. Die Frage geht an den Biologen: Ist die PCA es wert, die Information über Bord zu werfen, dass diese Zusammenhang nur fast linear aber nicht wirklich linear ist?
Dass einige in fast linearem und andere anscheinend in gar keinem Zusammenhang stehen, dass wird die PCA über verschiedene Ladungen auf verschiedene Komponenten schon selbst herausfinden. Dazu ist sie da.

Meine Daten bestehen aus insgesamt etwa 700 Beobachtungen und enthalten 30 Variablen.
Das klingt doch nach einem guten Zahlenverhältnis. Dann wird die PCA Dir sagen, welche Variablen Du in einem linearen Modell zusammenfassen kannst und welche nicht. Offensichtlich U-förmige Zusammenhänge, die ein lineares Modell als Nichtzusammenhang fehlerkennen würde, hast Du in Deiner SPLOM mal nicht.

HTH,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Einschätzung der Art des Zusammenhangs zwischen zwei Variablen

Beitrag von bigben »

Nachtrag in Kenntnis von schubbiaschwillis Kommentar (die Beitragserstellung hat sich da überschnitten):

Nachdem ich Deine Streudiagramme gesehen und darin keine wilden Abweichungen von Normalität gesehen habe würde ich es wie schubbiaschwilli halten, einfach mal einen Screeplot und eine PCA mit einer der gängigen Rotationen rechnen und schauen, ob was sinnstiftendes dabei herauskommt.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten