ich bin neu hier und habe natürlich direkt ein paar Fragen. Zwar hatte ich vor einigen Semestern einen Grundkurs in R, muss jedoch zugeben dass ich dennoch als Anfännger durchgehe. Daher bin ich vorallem dankbar wenn ich danach auch verstehe was ich tue.
Nun aber zur Fragestellung. Ich habe einen Datensatz. Darin enthalten sind eine Messtellennumer, die Koordinaten der Messstelle, eine Schadstoffkonzentration und das Datum der Messung. In diesem Datensatz habe ich bereits Fehlwerte ersetzt, Ausreißer beseitigt das Datum auf Jahr/Monat/Tag aufgeteilt etc. Nun möchte ich allerdings auf Zeiträume zugreifen. Bei diesen handelt es sich um Messzyklen in denen jede Messstelle mindestens ein Mal beprobt wurde, jedoch manche auch häufiger. Innerhalb dieser Messzyklen möchte ich die Schadstoffwerte der mehrfach vorhandenen Messstellen mitteln, so dass für jede Messstelle pro Zyklus nur noch ein Wert vorliegt.
Code: Alles auswählen
head(basisdaten)
Mst x y mgl Datum Jahr Monat Tag
1 3381 3695962 5494193 0.019 08.12.1989 1989 12 8
2 3381 3695962 5494193 0.027 10.10.1991 1991 10 10
3 3381 3695962 5494193 0.011 15.08.1989 1989 8 15
4 3381 3695962 5494193 0.032 26.08.1992 1992 8 26
5 3382 3695975 5494285 0.012 12.10.2001 2001 10 12
6 3382 3695975 5494285 0.002 18.09.2002 2002 9 18
Mein Ansatz wäre nun gewesen einen Messzyklus über das Datum vorzugeben, mit duplicated() nach doppelten Werten innerhalb von diesem zu suchen und im Fall von TRUE diese zu mitteln mitsammt der Messstelle + Koordinaten, an die Tabelle an zu hängen und die anderen Werte raus zu werfen. Jetzt habe ich aber natürlich bei allen Messstellen die irgendwo ein zweites Mal auftauchen TRUE stehen und ich will ja nicht den Mittelwert aller Messstellen sondern immer nur der identischen.
Ich bin dankbar für jede Form der Hilfe