Seite 1 von 1

Korrelation von vielen Spalten

Verfasst: Do Jul 05, 2018 11:31 am
von User
HAllo zusammen,

ich würde gerne Stammdaten eines ERP System auf zusammenhänge untersuchen, jetzt ist es so das eine vielzahl von Spalten vorhanden sind. Daher ist es kaum möglich anhand eines Plotes dies zu untersuchen. Gibt es eine möglichkeit eine Top 10 liste (Korrelation) zu erzeugen?

Schöne Grüße

Re: Korrelation von vielen Spalten

Verfasst: Do Jul 05, 2018 1:51 pm
von jogo
Hallo User,

zumindest funktioniert

Code: Alles auswählen

str(iris)
cor(iris[, 1:4])   ## bzw. cor(iris[, -5]) 
Gruß, Jörg

Re: Korrelation von vielen Spalten

Verfasst: Fr Jul 06, 2018 8:49 am
von User
Hallo Jörg,

danke.
Habe mal einen Beispieldatensatz mit einem wesentlichen außreiser aufgebaut.
Wenn ich das rein rechnerisch ansehe (Pearson), würde ich mir den Datensatz nicht genauer ansehen.
2018-07-06 08_42_20-QMmeldt.XLSX - Excel.png
2018-07-06 08_42_20-QMmeldt.XLSX - Excel.png (8.29 KiB) 487 mal betrachtet
Überprüfe ich den Datensatz grafisch, sieht das ganz anders aus.
2018-07-06 08_44_00-RStudio.png
Hat jemand eine idee, wie solche sachverhalte mit vielen spalten ausfindig machen kann?

Schöne Grüße

Re: Korrelation von vielen Spalten

Verfasst: So Jul 08, 2018 11:22 am
von student
Hallo User,

wenn ich ERP-System und QM-Meldungen lese, werde ich besonders aufmerksam (... und denke an SAP und insbesondere an das QM-Modul). Möchtest Du QM-Meldungen für ein bestimmtes Material oder Lieferanten über R auswerten? Hört sich interessant an...!

Oder darf ich Dich als neuen Interessenten für mein Calidris-Projekt gewinnen? Calidris ist eine R-Excel-Integration, allerdings noch in der PoC-Phase.

Re: Korrelation von vielen Spalten

Verfasst: So Jul 08, 2018 11:17 pm
von bigben
User hat geschrieben:
Fr Jul 06, 2018 8:49 am
Wenn ich das rein rechnerisch ansehe (Pearson), würde ich mir den Datensatz nicht genauer ansehen.
Heißt im Klartext, dass Du Dir nur hoch korrelierende Paare anschauen willst?

Code: Alles auswählen

Überprüfe ich den Datensatz grafisch, sieht das ganz anders aus.
Wie sieht es denn aus? Wie in Deiner Tabelle: Scheinkorrelation, die sich auflöst, wenn man den einen einflusreichen Punkt entfernt

Code: Alles auswählen

Hat jemand eine idee, wie solche sachverhalte mit vielen spalten ausfindig machen kann?

Vielleicht würde Dir eine einfache Spearman-Korrelation anstelle der Pearson Korrelation schon helfen? Was sagt denn die Spearman-Korrelation in Deinem Beispiel?
Wenn das als Hinweis nicht reicht braucht es vielleicht eine scharfe Definition von "solche sachverhalte". Robuste Regression könnte das Problem vielleicht abmildern, oder man könnte die kleinste Korrelation, die nach Weglassen eines Punktes auftritt untersuchen oder so. Hängt aber von der genauen Problemdefinition ab.
Suchbegriffe zum Nachlesen wären leverage, influential observation oder auch robust regression.

LG,
Bernhard

Re: Korrelation von vielen Spalten

Verfasst: Do Jul 26, 2018 3:03 pm
von User
Super danke für die Rückmeldung.

das mit dem Calidris Projekt hört sich gut an.
Kostet dies etwas?

Ich habe das gleich mal mit dem Spearman ausprobiert, sieht um einiges besser aus.
Rplot03.jpeg
Hat jemad beispiels in R für
Robuste Regression könnte das Problem vielleicht abmildern, oder man könnte die kleinste Korrelation, die nach Weglassen eines Punktes auftritt untersuchen oder so. Hängt aber von der genauen Problemdefinition ab.
Suchbegriffe zum Nachlesen wären leverage, influential observation oder auch robust regression.
Grüße

Re: Korrelation von vielen Spalten

Verfasst: Fr Jul 27, 2018 10:26 am
von student
Hallo User,

kostet nichts! Wir sind noch in der Proof-of-Concept-Phase und in sehr kurzen Abständen ist mit neun Versionen zu rechnen. Ich denke (natürlich), dass sich ein Ausprobieren lohnt. ;)

Wenn Du Dich dann als Newsletter-Empfänger registrieren lässt, wirst Du über jede neue Version informiert.