K- Means- Clusteranalyse und PCA stimmen nicht überein
Verfasst: Mo Jul 29, 2019 5:15 pm
Hallo zusammen!
Ich bin neu hier und habe doch ein Problem in R, wo ich nicht weiterkomme.
Ich habe einen Datensatz, der Skalenwerte von 1-5 in Spalten enthält, als Bspl. also:
Kategorie 1 Kategorie 2 Kategorie 3 ... Kategorie n, n groß.
1 2 4 3
... (viele Datensätze)
5 2 1 4
Es gibt mehr Kategorien als Datensätze, daher musste ich diesen noch mit Pseudozufallszahlen auffüllen, um überhaupt eine K- Means- Analyse machen zu können, damit nicht alle Zeilen noch zusätzlich mit "NA" herausfliegen. Das ist auch soweit richtig gelaufen.
Irritierend ist nun, dass ich sehr stark getrennte Cluster bekomme, was wohl "nicht realistisch" ist und auch nicht mit der PCA übereinstimmt, wenn ich eben K- Means vom jenem Datensatz mit 3 erwarteten Clustern betrachte (sowohl clusplot(Datensatz) als auch plotcluster(Datensatz) geben ein völlig unterschiedliches Bild, wobei clusplot(Datensatz) noch etwas Ähnicher dem PCA ist).
Die Datenpunkte stimmen gar nicht mit der PCA überein und ich soll nun schauen, woran es liegt, wobei ich noch keinerlei Ansatz gefunden habe, denn bei der PCA habe ich Folgendes gemacht:
Die PCA braucht meines Verständnisses nach ja eine Korrelationsmatrix, also habe ich cor(Datensatz) bestimmt, gespeichert und davon eine PCA erstellen lassen mit: principal(Datensatz) und habe diesen wieder abgespeichert.
Wenn ich dies dann plotte mit: plot(Datensatz) kommt ein völlig verstreuter Datensatz heraus (wie es zu erwarten ist bei "Daten aus dem Leben") und nicht die super abgetrennten Cluster wie nach K- Means.
Danke für Hilfe, GiFi
Ich bin neu hier und habe doch ein Problem in R, wo ich nicht weiterkomme.
Ich habe einen Datensatz, der Skalenwerte von 1-5 in Spalten enthält, als Bspl. also:
Kategorie 1 Kategorie 2 Kategorie 3 ... Kategorie n, n groß.
1 2 4 3
... (viele Datensätze)
5 2 1 4
Es gibt mehr Kategorien als Datensätze, daher musste ich diesen noch mit Pseudozufallszahlen auffüllen, um überhaupt eine K- Means- Analyse machen zu können, damit nicht alle Zeilen noch zusätzlich mit "NA" herausfliegen. Das ist auch soweit richtig gelaufen.
Irritierend ist nun, dass ich sehr stark getrennte Cluster bekomme, was wohl "nicht realistisch" ist und auch nicht mit der PCA übereinstimmt, wenn ich eben K- Means vom jenem Datensatz mit 3 erwarteten Clustern betrachte (sowohl clusplot(Datensatz) als auch plotcluster(Datensatz) geben ein völlig unterschiedliches Bild, wobei clusplot(Datensatz) noch etwas Ähnicher dem PCA ist).
Die Datenpunkte stimmen gar nicht mit der PCA überein und ich soll nun schauen, woran es liegt, wobei ich noch keinerlei Ansatz gefunden habe, denn bei der PCA habe ich Folgendes gemacht:
Die PCA braucht meines Verständnisses nach ja eine Korrelationsmatrix, also habe ich cor(Datensatz) bestimmt, gespeichert und davon eine PCA erstellen lassen mit: principal(Datensatz) und habe diesen wieder abgespeichert.
Wenn ich dies dann plotte mit: plot(Datensatz) kommt ein völlig verstreuter Datensatz heraus (wie es zu erwarten ist bei "Daten aus dem Leben") und nicht die super abgetrennten Cluster wie nach K- Means.
Danke für Hilfe, GiFi