Korrelation von vielen Spalten

Wie erweitere ich R um eigene Funktionen oder Pakete? Welches Paket ist passend für meine Fragestellung?

Moderatoren: EDi, jogo

Antworten
User
Beiträge: 15
Registriert: Do Aug 03, 2017 10:29 am

Korrelation von vielen Spalten

Beitrag von User »

HAllo zusammen,

ich würde gerne Stammdaten eines ERP System auf zusammenhänge untersuchen, jetzt ist es so das eine vielzahl von Spalten vorhanden sind. Daher ist es kaum möglich anhand eines Plotes dies zu untersuchen. Gibt es eine möglichkeit eine Top 10 liste (Korrelation) zu erzeugen?

Schöne Grüße
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Korrelation von vielen Spalten

Beitrag von jogo »

Hallo User,

zumindest funktioniert

Code: Alles auswählen

str(iris)
cor(iris[, 1:4])   ## bzw. cor(iris[, -5]) 
Gruß, Jörg
User
Beiträge: 15
Registriert: Do Aug 03, 2017 10:29 am

Re: Korrelation von vielen Spalten

Beitrag von User »

Hallo Jörg,

danke.
Habe mal einen Beispieldatensatz mit einem wesentlichen außreiser aufgebaut.
Wenn ich das rein rechnerisch ansehe (Pearson), würde ich mir den Datensatz nicht genauer ansehen.
2018-07-06 08_42_20-QMmeldt.XLSX - Excel.png
2018-07-06 08_42_20-QMmeldt.XLSX - Excel.png (8.29 KiB) 1844 mal betrachtet
Überprüfe ich den Datensatz grafisch, sieht das ganz anders aus.
2018-07-06 08_44_00-RStudio.png
Hat jemand eine idee, wie solche sachverhalte mit vielen spalten ausfindig machen kann?

Schöne Grüße
Benutzeravatar
student
Beiträge: 674
Registriert: Fr Okt 07, 2016 9:52 am

Re: Korrelation von vielen Spalten

Beitrag von student »

Hallo User,

wenn ich ERP-System und QM-Meldungen lese, werde ich besonders aufmerksam (... und denke an SAP und insbesondere an das QM-Modul). Möchtest Du QM-Meldungen für ein bestimmtes Material oder Lieferanten über R auswerten? Hört sich interessant an...!

Oder darf ich Dich als neuen Interessenten für mein Calidris-Projekt gewinnen? Calidris ist eine R-Excel-Integration, allerdings noch in der PoC-Phase.
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Korrelation von vielen Spalten

Beitrag von bigben »

User hat geschrieben: Fr Jul 06, 2018 8:49 amWenn ich das rein rechnerisch ansehe (Pearson), würde ich mir den Datensatz nicht genauer ansehen.
Heißt im Klartext, dass Du Dir nur hoch korrelierende Paare anschauen willst?

Code: Alles auswählen

Überprüfe ich den Datensatz grafisch, sieht das ganz anders aus.
Wie sieht es denn aus? Wie in Deiner Tabelle: Scheinkorrelation, die sich auflöst, wenn man den einen einflusreichen Punkt entfernt

Code: Alles auswählen

Hat jemand eine idee, wie solche sachverhalte mit vielen spalten ausfindig machen kann?

Vielleicht würde Dir eine einfache Spearman-Korrelation anstelle der Pearson Korrelation schon helfen? Was sagt denn die Spearman-Korrelation in Deinem Beispiel?
Wenn das als Hinweis nicht reicht braucht es vielleicht eine scharfe Definition von "solche sachverhalte". Robuste Regression könnte das Problem vielleicht abmildern, oder man könnte die kleinste Korrelation, die nach Weglassen eines Punktes auftritt untersuchen oder so. Hängt aber von der genauen Problemdefinition ab.
Suchbegriffe zum Nachlesen wären leverage, influential observation oder auch robust regression.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
User
Beiträge: 15
Registriert: Do Aug 03, 2017 10:29 am

Re: Korrelation von vielen Spalten

Beitrag von User »

Super danke für die Rückmeldung.

das mit dem Calidris Projekt hört sich gut an.
Kostet dies etwas?

Ich habe das gleich mal mit dem Spearman ausprobiert, sieht um einiges besser aus.
Rplot03.jpeg
Hat jemad beispiels in R für
Robuste Regression könnte das Problem vielleicht abmildern, oder man könnte die kleinste Korrelation, die nach Weglassen eines Punktes auftritt untersuchen oder so. Hängt aber von der genauen Problemdefinition ab.
Suchbegriffe zum Nachlesen wären leverage, influential observation oder auch robust regression.
Grüße
Benutzeravatar
student
Beiträge: 674
Registriert: Fr Okt 07, 2016 9:52 am

Re: Korrelation von vielen Spalten

Beitrag von student »

Hallo User,

kostet nichts! Wir sind noch in der Proof-of-Concept-Phase und in sehr kurzen Abständen ist mit neun Versionen zu rechnen. Ich denke (natürlich), dass sich ein Ausprobieren lohnt. ;)

Wenn Du Dich dann als Newsletter-Empfänger registrieren lässt, wirst Du über jede neue Version informiert.
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
Antworten