Korrelation von vielen Spalten

Wie erweitere ich R um eigene Funktionen oder Pakete? Welches Paket ist passend für meine Fragestellung?

Moderatoren: EDi, jogo

Antworten
User
Beiträge: 14
Registriert: Do Aug 03, 2017 10:29 am

Korrelation von vielen Spalten

Beitrag von User » Do Jul 05, 2018 11:31 am

HAllo zusammen,

ich würde gerne Stammdaten eines ERP System auf zusammenhänge untersuchen, jetzt ist es so das eine vielzahl von Spalten vorhanden sind. Daher ist es kaum möglich anhand eines Plotes dies zu untersuchen. Gibt es eine möglichkeit eine Top 10 liste (Korrelation) zu erzeugen?

Schöne Grüße

jogo
Beiträge: 1022
Registriert: Fr Okt 07, 2016 8:25 am

Re: Korrelation von vielen Spalten

Beitrag von jogo » Do Jul 05, 2018 1:51 pm

Hallo User,

zumindest funktioniert

Code: Alles auswählen

str(iris)
cor(iris[, 1:4])   ## bzw. cor(iris[, -5]) 
Gruß, Jörg

User
Beiträge: 14
Registriert: Do Aug 03, 2017 10:29 am

Re: Korrelation von vielen Spalten

Beitrag von User » Fr Jul 06, 2018 8:49 am

Hallo Jörg,

danke.
Habe mal einen Beispieldatensatz mit einem wesentlichen außreiser aufgebaut.
Wenn ich das rein rechnerisch ansehe (Pearson), würde ich mir den Datensatz nicht genauer ansehen.
2018-07-06 08_42_20-QMmeldt.XLSX - Excel.png
2018-07-06 08_42_20-QMmeldt.XLSX - Excel.png (8.29 KiB) 485 mal betrachtet
Überprüfe ich den Datensatz grafisch, sieht das ganz anders aus.
2018-07-06 08_44_00-RStudio.png
Hat jemand eine idee, wie solche sachverhalte mit vielen spalten ausfindig machen kann?

Schöne Grüße

Benutzeravatar
student
Beiträge: 230
Registriert: Fr Okt 07, 2016 9:52 am

Re: Korrelation von vielen Spalten

Beitrag von student » So Jul 08, 2018 11:22 am

Hallo User,

wenn ich ERP-System und QM-Meldungen lese, werde ich besonders aufmerksam (... und denke an SAP und insbesondere an das QM-Modul). Möchtest Du QM-Meldungen für ein bestimmtes Material oder Lieferanten über R auswerten? Hört sich interessant an...!

Oder darf ich Dich als neuen Interessenten für mein Calidris-Projekt gewinnen? Calidris ist eine R-Excel-Integration, allerdings noch in der PoC-Phase.
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, r-statistik.de und das Ad-Oculos-Projekt

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)

bigben
Beiträge: 723
Registriert: Mi Okt 12, 2016 9:09 am

Re: Korrelation von vielen Spalten

Beitrag von bigben » So Jul 08, 2018 11:17 pm

User hat geschrieben:
Fr Jul 06, 2018 8:49 am
Wenn ich das rein rechnerisch ansehe (Pearson), würde ich mir den Datensatz nicht genauer ansehen.
Heißt im Klartext, dass Du Dir nur hoch korrelierende Paare anschauen willst?

Code: Alles auswählen

Überprüfe ich den Datensatz grafisch, sieht das ganz anders aus.
Wie sieht es denn aus? Wie in Deiner Tabelle: Scheinkorrelation, die sich auflöst, wenn man den einen einflusreichen Punkt entfernt

Code: Alles auswählen

Hat jemand eine idee, wie solche sachverhalte mit vielen spalten ausfindig machen kann?

Vielleicht würde Dir eine einfache Spearman-Korrelation anstelle der Pearson Korrelation schon helfen? Was sagt denn die Spearman-Korrelation in Deinem Beispiel?
Wenn das als Hinweis nicht reicht braucht es vielleicht eine scharfe Definition von "solche sachverhalte". Robuste Regression könnte das Problem vielleicht abmildern, oder man könnte die kleinste Korrelation, die nach Weglassen eines Punktes auftritt untersuchen oder so. Hängt aber von der genauen Problemdefinition ab.
Suchbegriffe zum Nachlesen wären leverage, influential observation oder auch robust regression.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte

User
Beiträge: 14
Registriert: Do Aug 03, 2017 10:29 am

Re: Korrelation von vielen Spalten

Beitrag von User » Do Jul 26, 2018 3:03 pm

Super danke für die Rückmeldung.

das mit dem Calidris Projekt hört sich gut an.
Kostet dies etwas?

Ich habe das gleich mal mit dem Spearman ausprobiert, sieht um einiges besser aus.
Rplot03.jpeg
Hat jemad beispiels in R für
Robuste Regression könnte das Problem vielleicht abmildern, oder man könnte die kleinste Korrelation, die nach Weglassen eines Punktes auftritt untersuchen oder so. Hängt aber von der genauen Problemdefinition ab.
Suchbegriffe zum Nachlesen wären leverage, influential observation oder auch robust regression.
Grüße

Benutzeravatar
student
Beiträge: 230
Registriert: Fr Okt 07, 2016 9:52 am

Re: Korrelation von vielen Spalten

Beitrag von student » Fr Jul 27, 2018 10:26 am

Hallo User,

kostet nichts! Wir sind noch in der Proof-of-Concept-Phase und in sehr kurzen Abständen ist mit neun Versionen zu rechnen. Ich denke (natürlich), dass sich ein Ausprobieren lohnt. ;)

Wenn Du Dich dann als Newsletter-Empfänger registrieren lässt, wirst Du über jede neue Version informiert.
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, r-statistik.de und das Ad-Oculos-Projekt

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)

Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste