Anzahl einzelner Ausprägungen abfragen
-
- Beiträge: 3
- Registriert: Mi Apr 01, 2020 7:57 pm
Anzahl einzelner Ausprägungen abfragen
Hallo Zusammen,
ich habe einen großen Datensatz mit vielen Postleitzahlen.
Mit welchem Befehl kann ich abfragen, wie oft eine bestimmte Postleitzahl vorkommt?
Bsp: "44145", "33562", "66745", "44145" -> Wie oft kommt die "44145" vor, wie oft die "33562"... , sodass mir 2,1,... ausgegeben werden.
Ich hoffe mir kann jemand helfen.
Gruß
ich habe einen großen Datensatz mit vielen Postleitzahlen.
Mit welchem Befehl kann ich abfragen, wie oft eine bestimmte Postleitzahl vorkommt?
Bsp: "44145", "33562", "66745", "44145" -> Wie oft kommt die "44145" vor, wie oft die "33562"... , sodass mir 2,1,... ausgegeben werden.
Ich hoffe mir kann jemand helfen.
Gruß
Re: Anzahl einzelner Ausprägungen abfragen
Hallo,
schau Dir mal das Paket doBy und hier vielleicht die Funktion summaryBy an.
schau Dir mal das Paket doBy und hier vielleicht die Funktion summaryBy an.
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube
Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube
Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
-
- Beiträge: 3
- Registriert: Mi Apr 01, 2020 7:57 pm
Re: Anzahl einzelner Ausprägungen abfragen
Hallo Jörg,
vielen Dank für die schnelle Antwort. Ich bräuchte aber die Anzahl der jeweiligen PLZ als numerischen Wert, um daraus einen eigenen Vektor zu machen.
Hast du dafür zufällig auch eine Lösung?
Gruß.Hendrik
vielen Dank für die schnelle Antwort. Ich bräuchte aber die Anzahl der jeweiligen PLZ als numerischen Wert, um daraus einen eigenen Vektor zu machen.
Hast du dafür zufällig auch eine Lösung?
Gruß.Hendrik
Re: Anzahl einzelner Ausprägungen abfragen
Hallo Hendrik,
Gruß, Jörg
p.s.:
Es ist an Dir, ein reproduzierbares Beispiel zu liefern ... beim nächsten Mal.
viewtopic.php?f=20&t=11
Code: Alles auswählen
PLZ <- rep(c("44145", "33562", "66745", "44145"), c(4, 2, 5, 9))
table(PLZ)
anz <- table(PLZ)
str(as.numeric(anz))
as.data.frame(anz)
p.s.:
Es ist an Dir, ein reproduzierbares Beispiel zu liefern ... beim nächsten Mal.
viewtopic.php?f=20&t=11
-
- Beiträge: 3
- Registriert: Mi Apr 01, 2020 7:57 pm
Re: Anzahl einzelner Ausprägungen abfragen
Hallo Jörg,
vielen vielen Dank für die schnelle Hilfe!
Bei meiner zweiten Frage wird es besser, versprochen
Einen schönen Abend wünsche ich weiterhin.
Hendrik
vielen vielen Dank für die schnelle Hilfe!
Bei meiner zweiten Frage wird es besser, versprochen
Einen schönen Abend wünsche ich weiterhin.
Hendrik
Re: Anzahl einzelner Ausprägungen abfragen
Wenn es um größere Datenmengen geht, sollte man data.table nicht vergessen.
In dem Beispiel unten werden 1 Mio PLZ ausgewertet - so schnell, dass Ihr an einen Fehler glauben werdet :
In dem Beispiel unten werden 1 Mio PLZ ausgewertet - so schnell, dass Ihr an einen Fehler glauben werdet :
Code: Alles auswählen
library(data.table)
N <- 1000000
PLZ.str <- sprintf("%05d", 1010:9999)
Verzeichnis <- data.table(Adressnummer=paste0("A", sprintf("%08d", 1:N)), PLZ=sample(PLZ.str, N, replace=TRUE))
Anzahl <- Verzeichnis[ , .N, by = PLZ]
Re: Anzahl einzelner Ausprägungen abfragen
@Athomas Ohne nachzumessen glaube ich Dir, wenn Du sagst, dass data.table schneller ist. "In der Console spürbar" ist der Geschwindigkeitsunterschied zwischen den beiden Varianten
nicht. Und bei table erhalte ich die PLZ schön alphabetisch sortiert zurück. Ich glaube, mit 1 Mio bist Du noch nicht im kritischen Bereich bzw. die Vorteile liegen da noch nicht in der Geschwindigkeit.
LG,
Bernhard
Code: Alles auswählen
Anzahl <- Verzeichnis[ , .N, by = PLZ]
Anzahl.t <- table(Verzeichnis$PLZ)
LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Re: Anzahl einzelner Ausprägungen abfragen
Da hast Du natürlich recht, ich hatte table() erheblich träger in Erinnerung !Ich glaube, mit 1 Mio bist Du noch nicht im kritischen Bereich bzw. die Vorteile liegen da noch nicht in der Geschwindigkeit.
Re: Anzahl einzelner Ausprägungen abfragen
Alternativ mit count:
jaja ich weiß...tidyverse
Code: Alles auswählen
Verzeichnis %>% count(PLZ, sort = TRUE)