Video Hypothese und Signifikanz

Links zu Themen aus dem Statistik- und R-Bereich

Moderator: student

Antworten
Benutzeravatar
student
Beiträge: 674
Registriert: Fr Okt 07, 2016 9:52 am

Video Hypothese und Signifikanz

Beitrag von student »

Hallo R'ler,

ich habe hier mal etwas zum Thema Hypothese und Signifikanz gemacht. Das Video ist eine Einführung in das Thema, inklusive t-Test zur Hypothesentestdurchführung.

Ich freue mich, wenn das Video hilfreich ist und über - hoffentlich - positives Feedback! ;)
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Video Hypothese und Signifikanz

Beitrag von bigben »

Bild



Hallo Student,

das Video ist schön gemacht, die Szene, wo Du zu McDonald's gehst ist sogar lustig. Aber, und das ist groß geschrieben, Du gehst mir entschieden zu locker mit den Grenzen dessen um, was ein Nullhypothesensignifikanztest (NHST) leisten kann, und was nicht. Du sagst:

2:22 "mit Ihrer Hilfe werden Hypothesen angenommen oder abgelehnt"
- Nein, mit NHST können nur Nullhypothesen abgelehnt werden, nichts kann angenommen werden.


6:42 "kann die Nullhypothese nicht abgelehnt werden und ist dann die wahrscheinliche Hypothese".
- Nein, bloß weil eine Nullhypothese nicht abgelehnt werden kann, ist sie noch lange nicht wahrscheinlich. Im Gegenteil, zweiseitige Nullhypothesen sind im real life immer extrem unwahrscheinlich. Die Nullhypothese in Deinem 36 Gramm-Beispiel lautet, dass der Durchschnitt der Pattygewichte 36,00000000000000000000000000000000000000000000000000000000000000000000000000000000000000 Gramm ist. Auch wenn ich mir die folgenden unendlich vielen Nachkommastellen der Nullhypothese jetzt spare - es ist überhaupt nicht wahrscheinlich, dass das durchschnittliche Pattygewicht auf der tausendsten Nachkommastelle noch eine Null hat, und das wird auch durch ein p = 0,7467 nicht wirklich wahrscheinlicher.
Man kann auch nicht sagen, dass eine Nullhypothese wahrscheinlicher wird, je kleiner die Fallzahl ist, obwohl man umso weniger Nullhypothesen ablehnen kann, je kleiner die Fallzahl ist.


6:48 "es können Fehler bei der Annahme oder Ablehnung der Nullhypothese gemacht werden"
Auch da findet sich wieder der häufige Fehler, man könne durch einen statistischen Test eine Nullhypothese annehmen. Das kann ein NHST nicht!

Man kann auch nicht aus einer unwahrscheinlichen Nullhypothese auf eine wahrscheinliche Alternativhypothese schließen, schon gar nicht mit fixen Alphaniveaus. Wenn die Hypothese von vorneherein unwahrscheinlicher war als die gemessene Unwahrscheinlichkeit der Nullhypothese, dann kann man eben nicht aus einem p<0,01 schließen, dass die H1 richtig ist. Das Stichwort dazu heißt base rate fallacy und XKCD hat das in einem sehr schönen Beispiel veranschaulicht:
http://xkcd.com/1132/

Das klingt jetzt vielleicht etwas haarspalterisch, ich halte es aber für extrem weit verbreitete Denkfehler, die man dem Anfänger gleich zu Beginn austreiben sollte, statt sie noch zu befördern. Ich denke auch, dass diese Denkfehler zu tatsächlichen Fehlentscheidungen im echten Leben führen.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Benutzeravatar
student
Beiträge: 674
Registriert: Fr Okt 07, 2016 9:52 am

Re: Video Hypothese und Signifikanz

Beitrag von student »

Hallo Bernhard,

danke für Dein Feedback! Gestatte mir ein paar Anmerkungen und ich weiß, dass ist in dieser Forum sicher ein wenig schwierig.

Es ist immer eine Herausforderung, ein Thema umfassend und dabei kurzweilig zu beschreiben. Mein Ziel ist es, das Thema mit der nötigen Exaktheit einem Einsteiger zu vermitteln.

Sicher kann nur eine Aussage zur Wahrscheinlichkeit der Nullhypothese gemacht werden. Und wenn die Frage vernünftig formuliert ist, besteht eine bestimmte Wahrscheinlichkeit für die Alternativhypothese. Das ist - so hoffe ich - eine Botschaft des Videos.

Du hast besondere Anmerkungen zu
6:42 "kann die Nullhypothese nicht abgelehnt werden und ist dann die wahrscheinliche Hypothese".
und zu
6:48 "es können Fehler bei der Annahme oder Ablehnung der Nullhypothese gemacht werden"
gemacht.

Ist es nicht so, wenn die Nullhypothese nicht abgelehnt werden kann, dass eine bestimmte Wahrscheinlichkeit für die Nullhypothese spricht? Das soll auch eine Botschaft des Videos sein. Überrings, das Patty-Sollgewicht kommt tatsächlich von MC (ohne die Nachkommastellen...).

Was den Fehler 1. Art bzw. 2 Art angeht, wird gerade hier (6:48) dargelegt, dass durchaus Fehler bezüglich Nullhypothese und Alternativhypothese möglich sind. Es dreht sich um Wahrscheinlichkeiten....

Wie würdest Du das Thema angehen? Gerne können wir dann Hypothese und Signifikanz, Teil 2 auf den Weg bringen...
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Video Hypothese und Signifikanz

Beitrag von bigben »

Hallo Günter,
student hat geschrieben:Es ist immer eine Herausforderung, ein Thema umfassend und dabei kurzweilig zu beschreiben. Mein Ziel ist es, das Thema mit der nötigen Exaktheit einem Einsteiger zu vermitteln.
Ja, ich weiß, dass das schwierig ist und ich schätze Dein Engagement und Deine Mühe und Deine Zeit, die Du für diese Videos im Allgemeinen und auch gerade in dieses im Speziellen steckst. Ich habe nur eine andere Meinung, welches Maß an Exaktheit hier nötig ist.
Sicher kann nur eine Aussage zur Wahrscheinlichkeit der Nullhypothese gemacht werden.

Nein, die kann eben nicht gemacht werden. Welche Wahrscheinlichkeit kannst Du denn in Deinem 36-Gramm-Beispiel über die Wahrscheinlichkeit der Nullhypothese machen?
Und wenn die Frage vernünftig formuliert ist, besteht eine bestimmte Wahrscheinlichkeit für die Alternativhypothese. Das ist - so hoffe ich - eine Botschaft des Videos.
In der Bayes-Welt besteht eine Wahrscheinlichkeit für die Alternativhypothese, dass McDonald's Patties macht, die etwas leichter oder etwas schwerer als 36 Gramm sind - Du kannst sie aber aufgrund Deines t-Tests nicht irgendwie eingrenzen.
Im Gedankengebäude des t-Tests (NHST) besteht hingegen keine Wahrscheinlichkeit der Alternativhypothese. Hypothesen sind im NHST-Umfeld entweder wahr oder nicht wahr, haben aber keine Wahrscheinlichkeiten. Wahrscheinlichkeiten kommen in diesem System nur Daten, niemals Hypothesen zu.
Ist es nicht so, wenn die Nullhypothese nicht abgelehnt werden kann, dass eine bestimmte Wahrscheinlichkeit für die Nullhypothese spricht?
Solange der Mittelwert einer stetigen Verteilung entspringt und zugleich als Punkthypothese formuliert ist, ist deren Wahrscheinlichkeit Null. Insofern ist sie bestimmt, aber unrealistisch.
Überrings, das Patty-Sollgewicht kommt tatsächlich von MC (ohne die Nachkommastellen...).
Ok, einigen wir uns auf eine Nachkommastelle als Messgenauigkeit. Dann sind die Gewichte natürlich nicht mehr stetig, sondern diskret verteilt. Bei diskret verteilten Daten kommt der Nullhypothese (Gewicht = 36 g) natürlich eine Wahrscheinlichkeit größer als Null zu. Dann passt aber der t-Test nicht mehr. Wie man es dreht, der t-Test ist definitiv nicht geeignet, der Hypothese oder der Nullhypothese eine Wahrscheinlichkeit zuzuordnen.
Was den Fehler 1. Art bzw. 2 Art angeht, wird gerade hier (6:48) dargelegt, dass durchaus Fehler bezüglich Nullhypothese und Alternativhypothese möglich sind.
Vielleicht habe ich das unzureichend erklärt, aber Fehler erster und zweiter Art haben nichts mit meinem Problem zu tun, dass NHST-Tests keine Wahrscheinlichkeiten von Hypothesen berechnen und dass Nullhyptothesen, die als Punkthypothesen im stetig verteilten formuliert sind, immer falsch sind.
Wie würdest Du das Thema angehen?
Ich habe nur ein oder zwei Fehler im Detail angesprochen und sage nicht, dass Du das Thema anders angehen solltest. Ich will Dir auch gar nicht sagen, wie Du das Thema angehen solltest, Du hast Dir da bestimmt reichlich Gedanken drum gemacht, wie man das einführt, ich nicht. Ich beobachte nur, dass viele Leute nicht wirklich wissen, was p-Werte überhaupt aussagen und finde, dass man diesen Missverständnissen und Fehlinterpretationen ganz von Anfang der Ausbildung an vorbeugen sollte, indem man diesbezüglich auf Exaktheit in der Sprache achtet.

Von Anfang an müssen die Leute wissen, dass p-Werte gleichverteilt sind, falls die Nullhypothese stimmt und vor allem, dass sie im Falle der Nullhypothese nichts aussagen! Von Anfang an den Leuten sagen, dass man über die Wahrscheinlichkeiten von Hypothesen aufgrund von Daten nur dann etwas sagen kann, wenn man Priorannahmen formuliert. Dass der Fall Deiner Patties, nämlich ein p-Wert > 0,05, ohne Poweranalyse keine konkrete Aussage erlaubt.

Die ASA hat vor einiger Zeit eine Stellungnahme gegen die Überbewertung von p-Werten veröffentlicht. Ich glaube, die Leute würden p-Werte nicht so übergewichten, wenn ihnen bewusst wäre, wie wenig ein p-Wert sagt.

Natürlich ist das nur meine Meinung. Natürlich tun wir, wider besseres Wissen oder nicht, immer so, als ob wir mit dem Ablehnen der Nullhypothese die Alternativhypothese annehmen müssten/dürften. Du kannst sagen, dass Anfänger all die schlechten Angewohnheiten und Fehlannahmen mit Gewohnheitsrecht lernen müssen, um sich in der Welt der praktischen Statistik zurecht zu finden. Das ist eine valide, andere Argumentation, aber eben nicht meine.

Nochmal: Ich finde Dein Projekt richtig gut und gewichte hier nur anders. Ich bin aber sehr entschieden in dieser anderen Gewichtung.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Benutzeravatar
EDi
Beiträge: 1599
Registriert: Sa Okt 08, 2016 3:39 pm

Re: Video Hypothese und Signifikanz

Beitrag von EDi »

Ich denke zu dem Thema gibt es sehr viel Literatur zu.
[Ich persönlich höre mich oft zu Kollegen/Stundenten sagen (so oder so ähnlich): "Du überschätzt den Informationsgehalt von p-Werten. Tatsächlich geht dieser gegen 0 für deine Problem. Schau dir lieber die Effekte und deren Unsicherheiten an."].


Trotzdem hier ein aktueller (mal wie wieder) Artikel zu dem Thema: Link (open access)
Bitte immer ein reproduzierbares Minimalbeispiel angeben. Meinungen gehören mir und geben nicht die meines Brötchengebers wieder.

Dieser Beitrag ist lizensiert unter einer CC BY 4.0 Lizenz
Bild.
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Video Hypothese und Signifikanz

Beitrag von bigben »

Hallo EDi,

danke für den schönen Artikel. Der geht natürlich deutlich über das hinaus, was ich geschrieben habe (p-Werte bei Modellverletzungen und Nicht-Einhalten von Studienprotokollen), zum Teil belegt er aber schön, was ich beschrieben habe. Dass zum Beispiel eine Nullhypothese nicht angenommen werden soll, ist Punkt 4 im Kapitel "What p values [...] don't tell us".

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Benutzeravatar
student
Beiträge: 674
Registriert: Fr Okt 07, 2016 9:52 am

Re: Video Hypothese und Signifikanz

Beitrag von student »

Hallo EDi,

auch meinen Dank für diese sehr schöne Übersicht. Jetzt mal losgelöst von dem Video als Auslöser dieser Diskussion, natürlich muss man (damit meine ich mich auch) einen Blick auf dem p-Wert haben. Das Thema hatte vor einiger Zeit auch schon den Weg in die populärwissenschaftliche Zeitschrift Spektum .... ( Der Fluch des p-Werts , September 2014) geschafft.
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Video Hypothese und Signifikanz

Beitrag von bigben »

Ich versuch mal, mein Problem mit dem Video durch ein Gegenbeispiel zu erläutern. Gegeben ist Dein hart erarbeiteter Datensatz:

Code: Alles auswählen

patty <- c(35, 37.2,36.4,36.1,37,36.6,35.8,34.4,36.2,36.2)

plot(density(patty))
rug(patty)
Hmm, ob die beiden Werte da links Ausreißer sind? Ich glaube, wenn große Fettstücke in ein Patty geraten und dann auf dem Grill schmelzen, dann wird es Ausreißer nach unten geben, aber das führt erstmal zu weit.

Jetzt brauchen wir ein bequemes Package zur Bayes-Analyse, denn wir wollen ja Wahrscheinlichkeiten von Hypothesen bestimmen. Da kommt uns die Funktion robustt aus dem Package LearnBayes entgegen. Die Hilfeseiten in dem Package sind nach einer ersten Stichprobe nicht besonders überzeugend, aber damit können wir t-Verteilungen vorgegebener Freiheitsgrade an Daten anpassen. Im ersten Schritt gehen wir von Normalverteilung aus, und setzen die Freiheitsgrade v auf einen hohen Wert, damit t-Verteilung und Normalverteilung etwa übereinstimmen. Wir ziehen nun 10.000 mögliche Mittelwerte und Standardabweichungen aus der Posterior-Verteilung mittel Gibbs Sampler. Da uns die Standardabweichungen hier nicht interessieren, nehmen wir nur die Mittelwerte mit:

Code: Alles auswählen

mu <- robustt(patty, v=100, m=10000)$mu
Fertig. Das ging flott. Anstelle einer unsinnigen Punkthypothese als Nullhypothese stellen wir direkt unsere Hypothese auf:
Hypothesensteller hat geschrieben:Der Mittelwert der Verteilung liegt zwischen 35,05 und 36,05 Gramm.
und prüfen sogleich

Code: Alles auswählen

sum(35.05<mu & mu<36.05)/length(mu)
Und da kommt dann irgendwas zwischen 42 oder 43% bei raus. Mit einer größeren Sample-Zahl rechnet R länger und kommt auf irgendwas um 43,2%. Und das ist jetzt das, was und ein t-Test nie liefern kann: Die Wahrscheinlichkeit der Hypothese!!

Und genauso einfach lassen sich auch viele andere denkbare Hypothesen prüfen. Dafür habe ich jetzt 2 Code-Zeilen gebraucht anstelle einer für den t-Test.

Darüber hinaus habe ich ja noch den Verdacht, dass wir systematische Ausreißer nach unten haben könnten. Vielleicht wäre es gerechtfertigt, anstelle einer Normalverteilung eine t-Verteilung mit weniger Freiheitsgraden zu bestimmen? Dann wäre in den breiteren tails mehr Platz für Ausreißer übrig. Mit robustt() ganz einfach und siehe da, die Mittelwerte wandern mit abnehmenden Freiheitsgraden nach oben, und die Hypothese, dass der Mittelwert um 36g liegt, wird im Extremfall sogar auf 13% Wahrscheinlichkeit schrumpfen. In der "klassischen" Statistik hätte uns nichts zu dieser Überlegung verlockt.

Code: Alles auswählen

patty <- c(35,37.2,36.4,36.1,37,36.6,35.8,34.4,36.2,36.2)

library("LearnBayes")

mu100 <- robustt(y = patty, 100, m = 100000)$mu
mu20 <- robustt(y = patty, 20, m = 100000)$mu
mu10 <- robustt(y = patty, 10, m = 100000)$mu
mu3 <- robustt(y = patty, 3, m = 100000)$mu
mu1 <- robustt(y = patty, 1, m = 100000)$mu

plot(density(mu100), xlim=c(35.5,37), ylim=c(0,2))
lines(density(mu20), col="blue")
lines(density(mu10), col="darkblue", lty=2)
lines(density(mu3), col="pink")
lines(density(mu1), col="pink", lty=2)

sum(35.05<mu1 & mu1<36.05)/length(mu1)
Und was lernen wir daraus? Nullhypothesentests sind etabliert und natürlich muss man sie lehren. Wahrscheinlichkeiten von Hypothesen werden sie aber nie liefern, obwohl wir Forscher und dafür am meisten interessieren. Natürlich werden wir Nullhypothesentests noch lange lehren und anwenden, aber echte Berechnung von HYpothesenwahrscheinlichkeiten rücken in erreichbare Nähe auch ohne große Mathematik- oder Programmierkenntnisse. Wenn wir bei Anfängern falsche Eindrücke über die Möglichkeiten der NHST erwecken, dann haben wir nachher Probleme, die Überlegenheit modernerer Entwicklungen zu erklären.

LG,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Benutzeravatar
student
Beiträge: 674
Registriert: Fr Okt 07, 2016 9:52 am

Re: Video Hypothese und Signifikanz

Beitrag von student »

Hallo Bernhard,

gute Einleitung ...
Ich versuch mal, mein Problem mit dem Video durch ein Gegenbeispiel zu erläutern.
... und ausführliche Darstellung!

Es liegt mir aber fern, Probleme zu erzeugen! ;)

Ich lasse mal Wolfgang Tschirk sprechen:
"... die der klassischen Statistik und jene der Bayes-Statistik, die einander heftig wiedersprechen. Beide Richtungen haben ihre Anhänger und beide haben gute Argumente."
Ich persönlich bin offen und bezeichne mich nicht als Anhänger der einen oder anderen Richtung. Deswegen werde ich das Thema unter - ich nenne es mal so - Bayes-Gesichtspunkt aufnehmen und ein weiteres Video produzieren.

Vielleicht noch eine Anmerkungen zum Patty: Der praktische Hypothesensteller ist die Produktionsprozesssteuerung: 36g wird als Zielpattygewicht gefordert und darauf wird der Produktionsprozess eingefahren.

Annahmen und Näherungen werden in beiden Systemen gemacht, aber da möchte W. T. nicht wiederholen.
Viele Grüße,
Student
-----------------------------------------------------------------------------------------------------------------------
faes.de, Datenanalyse mit R & das Ad-Oculos-Projekt
Das Ad-Oculos-Projekt auf YouTube

Habe Mut, dich deines eigenen Verstandes zu bedienen! (Kant)
bigben
Beiträge: 2771
Registriert: Mi Okt 12, 2016 9:09 am

Re: Video Hypothese und Signifikanz

Beitrag von bigben »

Hallo Student,

ein ausgeglichenes Gegenüberstellungsvideo wäre sicher auch interessant. Ob man diesem Thema in zehn Minuten gerecht werden kann? Große Herausforderung. Ich finde das rein frequentistische Thema im oben stehenden Video auch sehr gut und wollte Dich keineswegs auffordern, das Nischenthema Bayes da einzubauen. Nur, keine unerfüllbaren Versprechungen über NHST zu wecken.

Liebe Grüße,
Bernhard
---
Programmiere stets so, dass die Maxime Deines Programmierstils Grundlage allgemeiner Gesetzgebung sein könnte
Antworten