Methoden der Datenvalidierung

Allgemeine Statistik mit R, die Test-Methode ist noch nicht bekannt, ich habe noch keinen Plan!

Moderatoren: EDi, jogo

Antworten
pfischer
Beiträge: 31
Registriert: Mi Mär 29, 2017 5:31 pm

Methoden der Datenvalidierung

Beitrag von pfischer »

Lieber Forum,
ich bin auf der Suche nach einer guten Methode Validierung von Sensordaten - komme aber nicht so recht weiter.

Grundlage ist folgende.
Ich messe in einem Experiment z.B. die Wassertemperartur an einer bestimmten Stelle in einem Umkreis von 1 m mit 4-6 verschiedenen Sonden. Nicht alle Sonden sind immer aktiv, wenigstens 3 von 6 Sonden messen aber über längere Zeiträume parallel. Jede Sonde hat Ihre eigene Messgenauigkeit die sich teilweise aber auch über die Zeit verändert, z.B. auf Grund von Alterungsprozessen oder anderen äusseren Faktoren.

Ich suche nun eine Methode mit der ich die jeweils parallel messenden Sonden als Grundlage zur Berechnung der wahrscheinlich korrekten Temperarur nehmen kann. Ich habe im Netz nun einiges über mögliche Methoden gelesen, werde aber nicht so ganz schlau daraus. Das gelesene Spektrum reiucht von Datentriangulation über neuronale Netzwerke etc. etc.

Was ich am Ende der Berechnung eigentlich anstreben würde wäre der "wahrscheinlichste" Messwert (basierend auf den Messungen der 4-6 Sonden) und eine "Streubreite" um diesen Wert die angibt in welchem Bereich sich der "wahrscheinlichste" Messwert der Temperatur mit z.B. 90%-iger Wahrscheinlichkeit bewegt, d.h. wie hocjh die Unsicherheit bei der Bestimmung des "wahrscheinlichste" Messwerts ist.

Ich hoffe die Frage ist so formuliert dass sie verständlich ist.

Für Tips von Mathematiken und Statistikern wäre ich sehr dankbar, auch wenn sie nur die Richtung aufzeigen in der es am sinnvolsten wäre zu denken um die Frage anzugehen.
VG Philipp
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Methoden der Datenvalidierung

Beitrag von bigben »

Ich bin weder Mathematiker noch Statistiker, aber aus 4 bis 6 Werten lässt sich ein Mittelwert als gemeinsamer Schätzwert und ein Standardfehler als Schätzmaß für die Unsicherheit bestimmen. Natürlich darf man nicht davon ausgehen, aus 4 Werten eine sehr präzise Schätzung der Streuung zu bekommen, aber mehr Sensoren hast Du halt nicht.

Google mal nach "Standardfehler" oder "standard error".

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
pfischer
Beiträge: 31
Registriert: Mi Mär 29, 2017 5:31 pm

Re: Methoden der Datenvalidierung

Beitrag von pfischer »

Lieber Bernhard,
ok, ich sehe ich habe meine Frage nicht eindeutig formuliert. Mittelwert als gemeinsamer Schätzwert und ein Standardfehler etc. kenne ich natürlich. Diese Maßzahlen für die "Berechnung" für die Wahren Werte sind aber symmetrisch, d.h. es gehen alle Werte mit einer ähnlichen Wichtung ein, ausser man verwendet gewichtetetr Mittelwerte etc. Ich möchte aber gerne deutlich mehr haben. Ich möchte gerne aus den numerischen Distanzen der einzelnen Werte berechnen, welche der Werte der Wahrscheinlichste ist bzw. welche Maßzahl dem "echten" Wert nahekommt. Dazu würde ich gerne die (linearen) Abhängigkleiten der einzelnen Werte berücksichtigen und auch deren gegenseitige Veränderungen über die Zeit. Normale Lineare Modelle geben das meines Wissens nicht her da hier eine Abhängige von mehreren unabhängigen Variablen erklärt wird. Ich habe in diesem Fall aber keien abhängige Variable sondern möchte eine möglichst wahrscheinliche Abhängige aus mehreren erklärenden Variablen berechnen.
Ich hoffe das präzisiert die Frage.
VG Philipp
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Methoden der Datenvalidierung

Beitrag von bigben »

Hallo Philip,

ich fürchte, für das was Du vorhast, reicht die Präzisierung bei weitem nicht aus. Du willst das zeitabhängige Verhalten der Sensoren berücksichtigen, deren parallele und nicht parallele Verläufe, ihre Alterungsprozesse und äußere Faktoren. Ich befürchte, Du wirst Dir überlegen müssen, wie solche Alterungsprozesse sich auswirken, was für Auswirkungen äußere Faktoren haben und wie man so eine sondenindividuelle Messungenauigkeit modellieren kann. Alles Dinge, bei denen Dir das Forum kaum wird helfen können.

Die Alternative wäre so etwas wie deep learning - Du schmeißt Deine Daten einem Algorithmus vor, der sich dann die Antworten weitgehend selbst sucht. Das hat zwei Probleme: Erstens, braucht man dafür umso größere Datenmengen, je weniger Vorinformation man hat und zweitens bräuchte man eine Zielgröße, anhand derer der Algorithmus beurteilen kann, wie gut oder schlecht er die Wassertemperatur berechnet hat. Wenn es neben Deinen fehlerbehafteten Werten jeweils auch die "wahre Temperatur" gäbe, dann käme überwachtes maschinelles Lernen auf den Plan. Ich verstehe Dich aber richtig, dass hier jeweils eine Temperatur vorhergesagt werden soll, die wir gar nicht kennen?

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
pfischer
Beiträge: 31
Registriert: Mi Mär 29, 2017 5:31 pm

Re: Methoden der Datenvalidierung

Beitrag von pfischer »

Hallo Bernhard,
ja, es sollen auc 3-5 parallel laufenden Messreihen mit unterschiedlichen Sensoren die "wahrscheinlichste" Temperatrur ermittelt werden. Dabei wäre noch die Möglichkeit gegeben z.B. jeden Monat eine parallel Probe zu nehmen die die "echte" bzw. "wahrscheinliuch echte" Temperature ergibt, sozusagen ein Kalibrierfaktor. Dieser Faktor könnte ggfls. die Zielgröße sein , die aber dann eben nur ein mal pro Monat genommen werden kann. Ich lese mit auch gerade in die Bayesische Statistik ein - evtl. ergiebt sich da ein Weg.
Vielen Dank
Philipp
ruedi_br
Beiträge: 159
Registriert: Do Mär 01, 2018 3:53 pm

Re: Methoden der Datenvalidierung

Beitrag von ruedi_br »

Hallo Philipp,
wenn die Sonden +/- die gleichen Temperaturen liefern, ggf. aber Ausreißer haben können bzw. ganz ausfallen können, wäre der Median sicherlich anstelle des Mittelwerts deutlich sinnhafter.
Ansonsten wäre bei Mittelwertbildung von den Sonden der gemeinsame Fehler über das Fehlerfortpflanzungsgesetz zu ermitteln. Oder aber der jeweilige "Sondenfehler" (also die Streuung) ginge in die Wichtung ein, dann allerdings eher bei einer Mittelwertbildung).
Bleibt am Schluss noch die Frage, wie dann der "Korrekturfaktor", der einmal pro Monat genommen ermittelt wird, dann auf die jeweilige Sondenfunktion beaufschlagt wird, dieses dürfte allerdings weniger ein Faktor als ein Summand sein.
Soll dann am Schluss (Meßwert1+Korrekturfaktor)*Wichtung1 in die Mittelung der Sondenergebnisse eingehen?
Grüße
Ruedi
fortune(111)
Antworten