Cluster vordefinieren

Varianzanalyse, Diskriminanzanalyse, Kontingenzanalyse, Faktorenanalyse, Clusteranalyse, MDS, ....

Moderator: EDi

Antworten
annasophie

Cluster vordefinieren

Beitrag von annasophie »

Hallo zusammen,

ich bin bei meiner Clusteranalyse auf ein Problem gestoßen und würde das gerne durch das Vordefinieren meiner Cluster lösen.

Ich verwende hclust() zur Clusteranalyse, würde aber gerne nicht mit jeder observation als Cluster beginnen, sondern diese ersten Cluster vordefinieren. Als kleines Beispiel:

Ich habe verschiedene Fahrzeuge und deren Eigenschaften (Marke, PS, Beschleunigung, etc.). Bevor ich diese aber zu Clustern zusammenfasse, möchte ich sichergehen, dass alle Mercedes in einem Cluster landen. Das gleiche mit BMW, Opel, etc. Danach erst möchte ich Cluster erhalten, die die anderen Eigenschaften berücksichtigen --> dadruch entstehen beispielsweise Cluster mit unterschiedlich schnellen Fahrzeugen, aber die Mercedes werden dabei nicht in "langsamen" und "schnellen" Clustern auftauchen, sondern nur in einem von beiden.

Kann mir irgendjemand sagen, wie ich das in R mache?



Das ist ein sehr runtergebrochenes Beispiel und soll nur zur verdeutlichung des Problems dienen.

Vielen Dank im Voraus :)
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Cluster vordefinieren

Beitrag von bigben »

Hallo Annasophie,

"runtergebrochene" Beispiele zur Verdeutlichung führen meistens eher zu Verwirrung. Du versuchst hier eine Mischung aus überwachtem und unüberwachtem Lernen. Dazu habe ich keinen etablierte Vorschlag (klar könnte man irgendwie eine Art von knn selbst basteln...). Hast Du einfach mal versucht, diue bekannten Automarken durch überwachtes Lernen voneinander zu trennen und dann die nicht-bekannten danach zu sortieren? Man könnte z. B. einen Klassifikationsbaum mit rpart machen, in dem zunächst Grenzen für Mercedes, BMW und Opel gelernt werden und dann schauen, wie Autos anderer Marken dadurch klassifiziert werden. Wenn Du es klassischer magst, kannst Du statt des Klassifikationsbaums eine Diskriminanzanalyse nehmen, wenn Du sehr viele Daten hast, ein neuronales Netzwerk.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
consuli
Beiträge: 479
Registriert: Mo Okt 10, 2016 8:18 pm

Re: Cluster vordefinieren

Beitrag von consuli »

annasophie hat geschrieben: Mo Jun 12, 2017 2:36 pm Ich habe verschiedene Fahrzeuge und deren Eigenschaften (Marke, PS, Beschleunigung, etc.). Bevor ich diese aber zu Clustern zusammenfasse, möchte ich sichergehen, dass alle Mercedes in einem Cluster landen. Das gleiche mit BMW, Opel, etc. Danach erst möchte ich Cluster erhalten, die die anderen Eigenschaften berücksichtigen --> dadruch entstehen beispielsweise Cluster mit unterschiedlich schnellen Fahrzeugen, aber die Mercedes werden dabei nicht in "langsamen" und "schnellen" Clustern auftauchen, sondern nur in einem von beiden.
Bitte verzeih, aber ich verstehe Deine Frage schon dahingehend nicht, warum Du zuerst Marken-Cluster brauchst und danach weiter differenzierte Cluster aus den ersten?

Letztlich ist doch nur dass Cluster-End-Ergebnis relevant, und nicht der algorithmische Weg, wie es entstanden ist.

Oder willst Du in Wirklichkeit verschiedene Clustervarianten (allfällig auf unterschiedlich vielen Merkmalen basierend) miteinander vergleichen/ weitergehenden Analysen unterziehen? Auch dann wäre der algorithmische Cluster-Weg irrelevant.
Irmgard.
knuffikatze
Beiträge: 28
Registriert: Mi Apr 19, 2017 9:04 pm

Re: Cluster vordefinieren

Beitrag von knuffikatze »

Hallo,

wieso erstellst du nicht einfach 3 Tabellen (Audi, Mercedes, Opel), die da dann mit hclust() clustert?

Gruß
Eva
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Cluster vordefinieren

Beitrag von EDi »

wieso erstellst du nicht einfach 3 Tabellen (Audi, Mercedes, Opel), die da dann mit hclust() clustert?
Hätte ich jetzt auch gesagt... ween du wirklich nicht an der Distanz zwischen Marken interessiert bist.
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Cluster vordefinieren

Beitrag von bigben »

knuffikatze hat geschrieben: Di Mär 20, 2018 4:25 pm wieso erstellst du nicht einfach 3 Tabellen (Audi, Mercedes, Opel), die da dann mit hclust() clustert?
Da werden wir wohl keine Antwort mehr erwarten dürfen, da die Dame sich nach ihrem ersten Post seit Monaten nicht mehr gemeldet hat. Meines Erachtens macht die ganze Frage bestenfalls dann Sinn, wenn nicht jedes verfügbare Element schon am Anfang einem Cluster zugeordnet wird. Im Bild: Alle Mercedes kommen in einen Cluster und alle Fiat in einen anderen Cluster und die VW werden dann vom Clusteralgorithmus so zugeordnet, dass der Polo bei den Fiats landet und der Phaeton im Mercedes-Cluster. Wir werden es aber wohl nie erfahren.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten