Hilfe!! Zeilen löschen in R Studio

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von jogo »

Hallo Vicky,

bitte poste das Ergebnis von:

Code: Alles auswählen

Daten.neu <- subset(index.crimes.by.county.and.agency.beginning.1990, !(County %in% c("Region Total", "County Total")))
dim(Daten.neu)
und von:

Code: Alles auswählen

dput(unique(index.crimes.by.county.and.agency.beginning.1990$County))
Gruß, Jörg
VickyH92

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von VickyH92 »

Hallo Jörg,

hier einmal die Outputs:

Code: Alles auswählen

> Daten.neu <- subset(index.crimes.by.county.and.agency.beginning.1990, !(County %in% c("Region Total", "County Total")))
> dim(Daten.neu)
[1] 19280    12
und

Code: Alles auswählen

> dput(unique(index.crimes.by.county.and.agency.beginning.1990$County))
structure(1:63, .Label = c("Albany", "Allegany", "Bronx", "Broome", 
"Cattaraugus", "Cayuga", "Chautauqua", "Chemung", "Chenango", 
"Clinton", "Columbia", "Cortland", "Delaware", "Dutchess", "Erie", 
"Essex", "Franklin", "Fulton", "Genesee", "Greene", "Hamilton", 
"Herkimer", "Jefferson", "Kings", "Lewis", "Livingston", "Madison", 
"Monroe", "Montgomery", "Nassau", "New York", "Niagara", "Oneida", 
"Onondaga", "Ontario", "Orange", "Orleans", "Oswego", "Otsego", 
"Putnam", "Queens", "Region Total", "Rensselaer", "Richmond", 
"Rockland", "Saratoga", "Schenectady", "Schoharie", "Schuyler", 
"Seneca", "St Lawrence", "Steuben", "Suffolk", "Sullivan", "Tioga", 
"Tompkins", "Ulster", "Warren", "Washington", "Wayne", "Westchester", 
"Wyoming", "Yates"), class = "factor")
Liebe Grüße
Vicky
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von jogo »

Hallo Vicky,
VickyH92 hat geschrieben: So Aug 05, 2018 6:22 pm

Code: Alles auswählen

> Daten.neu <- subset(index.crimes.by.county.and.agency.beginning.1990, !(County %in% c("Region Total", "County Total")))
> dim(Daten.neu)
[1] 19280    12
das sind schon mal 45 Zeilen weniger als im ursprünglichen Dataframe, siehe:
> str(index.crimes.by.county.and.agency.beginning.1990)
'data.frame': 19325 obs. of 12 variables:
...
welche 45 Beobachtungen konntest Du löschen?

Code: Alles auswählen

> dput(unique(index.crimes.by.county.and.agency.beginning.1990$County))
structure(1:63, .Label = c("Albany", "Allegany", "Bronx", "Broome", 
"Cattaraugus", "Cayuga", "Chautauqua", "Chemung", "Chenango", 
"Clinton", "Columbia", "Cortland", "Delaware", "Dutchess", "Erie", 
"Essex", "Franklin", "Fulton", "Genesee", "Greene", "Hamilton", 
"Herkimer", "Jefferson", "Kings", "Lewis", "Livingston", "Madison", 
"Monroe", "Montgomery", "Nassau", "New York", "Niagara", "Oneida", 
"Onondaga", "Ontario", "Orange", "Orleans", "Oswego", "Otsego", 
"Putnam", "Queens", "Region Total", "Rensselaer", "Richmond", 
"Rockland", "Saratoga", "Schenectady", "Schoharie", "Schuyler", 
"Seneca", "St Lawrence", "Steuben", "Suffolk", "Sullivan", "Tioga", 
"Tompkins", "Ulster", "Warren", "Washington", "Wayne", "Westchester", 
"Wyoming", "Yates"), class = "factor")
ok, "County Total" gibt es nicht, aber "Region Total"

Bitte mal das Ergebnis von:

Code: Alles auswählen

Daten.neu <- subset(index.crimes.by.county.and.agency.beginning.1990, !(County %in% c("Region Total", "County Total")))
table(Daten.neu$County)
(dies soll die Frage beantworten, wieviele Datensätze mit "Region Total" noch vorhanden sind.)

Gruß, Jörg
VickyH92

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von VickyH92 »

Hallo Jörg,

erst einmal vorweg vielen Dank, dass du mir so nett weiterhilfst. :-)

Hier ist der Output:

Code: Alles auswählen

> Daten.neu <- subset(index.crimes.by.county.and.agency.beginning.1990, !(County %in% c("Region Total", "County Total")))
> table(Daten.neu$County)

      Albany     Allegany        Bronx       Broome  Cattaraugus       Cayuga   Chautauqua 
         474          334           28          328          308          228          363 
     Chemung     Chenango      Clinton     Columbia     Cortland     Delaware     Dutchess 
         235          294          210          293          192          272          484 
        Erie        Essex     Franklin       Fulton      Genesee       Greene     Hamilton 
         766          158          154          169          184          266          117 
    Herkimer    Jefferson        Kings        Lewis   Livingston      Madison       Monroe 
         308          425           28          122          309          296          434 
  Montgomery       Nassau     New York      Niagara       Oneida     Onondaga      Ontario 
         211          705           28          312          524          620          234 
      Orange      Orleans       Oswego       Otsego       Putnam       Queens Region Total 
         987          193          292          191          234           28            0 
  Rensselaer     Richmond     Rockland     Saratoga  Schenectady    Schoharie     Schuyler 
         342           28          407          306          241          182          139 
      Seneca  St Lawrence      Steuben      Suffolk     Sullivan        Tioga     Tompkins 
         196          357          371          745          236          151          321 
      Ulster       Warren   Washington        Wayne  Westchester      Wyoming        Yates 
         556          140          270          306         1294          229          125 

Liebe Grüße
Vicky
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von jogo »

Hallo Vicky,
VickyH92 hat geschrieben: So Aug 05, 2018 8:08 pm

Code: Alles auswählen

> Daten.neu <- subset(index.crimes.by.county.and.agency.beginning.1990, !(County %in% c("Region Total", "County Total")))
> table(Daten.neu$County)

...
      Orange      Orleans       Oswego       Otsego       Putnam       Queens Region Total 
         987          193          292          191          234           28            0 
...
schau doch mal: "Region Total" kommt exakt 0-mal vor in Daten.neu, das muss wohl dann der Aufruf von subset() bewirkt haben. :shock:
Du kannst das ja gerne nochmal mit der Zählung im ursprünglichen Dataframe vergleichen:

Code: Alles auswählen

table(index.crimes.by.county.and.agency.beginning.1990$County)
Ich halte es durchaus für möglich, dass dort unter "Region Total" eine 45 steht. :idea:

Da es "County Total" nicht gibt, kann der Aufruf von subset() vereinfacht werden:

Code: Alles auswählen

Daten.neu <- subset(index.crimes.by.county.and.agency.beginning.1990, County != "Region Total")
oder Du machst die Gegenprobe:

Code: Alles auswählen

subset(index.crimes.by.county.and.agency.beginning.1990, County == "Region Total")
Das müssten die 45 Zeilen sein, die in Daten.neu nicht mehr vorhanden sind.

Gruß, Jörg
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von jogo »

Hier habe ich eine Quelle gefunden, bei der man sich nicht registrieren muss:
https://data.ny.gov/api/views/ca8h-8gjq ... undry=true

also:

Code: Alles auswählen

crimes <- read.csv("https://data.ny.gov/api/views/ca8h-8gjq/rows.csv?accessType=DOWNLOAD&api_foundry=true")
### bzw.
library("data.table")
crimes <- fread("https://data.ny.gov/api/views/ca8h-8gjq/rows.csv?accessType=DOWNLOAD&api_foundry=true")
jogo hat geschrieben: So Aug 05, 2018 2:55 pm
Hier findet man den Datensatz, den ich nutze :
https://www.kaggle.com/new-york-state/n ... rimes/home
Auf der angegebenen Seite muss man sich registrieren, wenn man den Datensatz runterladen will, richtig?

Gruß, Jörg
Athomas
Beiträge: 768
Registriert: Mo Feb 26, 2018 8:19 pm

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von Athomas »

Hallo Vicky,

wenn Du Dir meinen Vorschlag von gestern angeguckt hättest, wäre Dir aufgefallen, dass sich die "interessanten Angaben" im Feld "Agency" verbergen - und nicht, wie Jogo die ganze Zeit vermutet, im Feld "County".

Ich nehme, an, dass Du die "Agency" aus dem Original-Datensatz entfernt hast!?
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von jogo »

Hallo Thomas,

ja, Agency wurde entfernt:
viewtopic.php?f=11&t=1010#p4713

Gruß, Jörg
Athomas hat geschrieben: Mo Aug 06, 2018 10:44 am Hallo Vicky,

wenn Du Dir meinen Vorschlag von gestern angeguckt hättest, wäre Dir aufgefallen, dass sich die "interessanten Angaben" im Feld "Agency" verbergen - und nicht, wie Jogo die ganze Zeit vermutet, im Feld "County".

Ich nehme, an, dass Du die "Agency" aus dem Original-Datensatz entfernt hast!?
VickyH92

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von VickyH92 »

Hallo ihr zwei,

vielen Dank für eure Rückmeldungen. Ihr habt Recht, ich hatte wohl die verkehrte Spalte entfernt. Ohje... :roll: Das hatte ich getan, bevor mir die "Total"-Zeilen im Originaldatensatz aufgefallen sind.

@Thomas: Deine Antwort habe ich ehrlich gesagt als etwas provokant empfunden und da ich wie gesagt blutiger Anfänger bei R bin, konnte ich aus deinem Code nicht viel herauslesen. Genau das ist ja mein Problem. Nichts für ungut. ;-)

Ich habe inzwischen aber eine noch viel simplere Lösung gefunden, auf die ich anfangs gar nicht gekommen bin. Und zwar habe ich die entsprechenden Spalten und Zeilen aus der ursprünglichen csv.-Datei entfernt und den Datensatz erneut hochgeladen. Damit hat es funktioniert!

@Jörg: Vielen Dank für deine Unterstützung!

Liebe Grüße,
Vicky
jogo
Beiträge: 2085
Registriert: Fr Okt 07, 2016 8:25 am

Re: Hilfe!! Zeilen löschen in R Studio

Beitrag von jogo »

Hallo Vicky,
VickyH92 hat geschrieben: Mo Aug 06, 2018 7:54 pm Ich habe inzwischen aber eine noch viel simplere Lösung gefunden, auf die ich anfangs gar nicht gekommen bin. Und zwar habe ich die entsprechenden Spalten und Zeilen aus der ursprünglichen csv.-Datei entfernt und den Datensatz erneut hochgeladen. Damit hat es funktioniert!
die Ansichten, was einfach ist, sind sehr verschieden. Bei mir gilt: die Originaldaten bleiben unverändert; alles Andere ist im Code dokumentiert.
Also etwa so:

Code: Alles auswählen

crimes <- read.csv("https://data.ny.gov/api/views/ca8h-8gjq/rows.csv?accessType=DOWNLOAD&api_foundry=true")
C2 <- subset(crimes, Agency!="County Total" & County!="Region Total")
######################  bzw.
library("data.table")
crimes <- fread("https://data.ny.gov/api/views/ca8h-8gjq/rows.csv?accessType=DOWNLOAD&api_foundry=true")
C2 <- crimes[Agency!="County Total" & County!="Region Total"]
Von den ursprünglich 19325 Beobachtungen bleiben dadurch 17544 übrig.
@Jörg: Vielen Dank für deine Unterstützung!
Keine Ursache - war ja nix Großes.

Viele Grüße, Jörg
Antworten