Einerseits genießt Wissenschaft gerade viel Aufmerksamkeit. Aber sind Sie auch genervt davon,dass Wissenschaftler ständig irren? Kommen Sie auch nicht mehr mit, weil die ständig die Meinung ändern? Dann haben wir die Lösung für Sie. Scheißen Sie auf die Wissenschaft. Mal ernsthaft, wenn Wissenschaft
eh nicht die Wahrheit abbilden kann, und das kann sie nicht, warum dann drauf hören? Ein wichtiges Argument ist: Wissenschaft bedeutet, fortlaufend neue Erkenntnisse zu gewinnen. Ja, nur Vollidioten legen sich auf eine Meinung fest, wenn es ständig neue Erkenntnisse gibt.
Wenn dem nicht so wäre, würden wir immer noch denken, die Erde wäre eine fucking Scheibe. Entschuldigung, ein paar Vollidioten denken das ja immer noch. Aber wenn wir ganz ehrlich sind, ist das ja nicht der einzige Grund. Wissenschaft steckt voller Fehler und Schwächen, die Wissenschaftlern sehr bewusst sind, aber von denen Laien kaum was mitbekommen. Deswegen möchte ich mich in diesem Video mal ausgiebig diesen Schwächen widmen. Spoiler: Ich werde anschließend erklären, warum ich Wissenschaft trotzdem vertraue. Das könnt ihr gern anders sehen. Aber bevor ihr das in den Kommentaren schreibt, holt euch einen Tee, macht es euch gemütlich. Das haben wir heute vor. Los geht’s. Bevor wir uns ausgiebig den Schwächen der Forschung widmen, möchte ich kurz klarstellen, warum wir ohne Forschung aufgeschmissen wären, damit wir uns nicht falsch verstehen.
Manche stellen sich Forschung so vor: Ob wohl der Lichtschalter funktioniert? Ja. Okay, ist das reversibel? Ja. Ist das reproduzierbar? Sehr schön. Aber meist läuft es in der Forschung eher so: Ob wohl dieser Lichtschalter
funktioniert? Äh? Wenn wir ehrlich sind, läuft es eher so: Sobald ich’n Lichtschalter gefunden hab, kann ich auch testen, ob er funktioniert. Ich bin kurz vor dem Durchbruch. Klassisches Beispiel: die Suche nach einem neuen Medikament.
Darauf warten wir währendder Pandemie besonders ungeduldig. Im Gegensatz dazu scheint das Finden geeigneter Heilmittel laut mancher Internetforen ganz einfach. Ich hatte schwere Migräne. Dann hab ich
das Schweizer Gletscherwasser mit halber Gurke getrunken. Und es ging mir direkt besser. Bisschen unpraktisch, aber lohnt sich. Diese Denkfalle nennt sich: Übersetzt: „Danach, also deswegen“. Nur weil die Migräne nach dem Gurkenwasser besser wurde, heißt das nicht automatisch, dass es wegen des Gurkenwassers war. Ein einzelner Selbstversuch hat also kaum Aussagekraft. Ganz viele Selbstversuche allerdings auch nicht. Wenn man das Internet durchsucht, findet man kein vollständiges Bild. „Hab Kurkuma ausprobiert. Bin immer noch genauso müde.“ Wer schreibt darüber schon einen Blogartikel oder ein Buch? Stattdessen ist das Netz voll von Dingen, die angeblich super geholfen haben. Doch da Erfolge eher geteilt werden, kommt es zu einem „Auswahlbias“. Ein Bias beschreibt allgemein eine einseitige oder verzerrte Wahrnehmung oder Darstellung, die die Realität nicht richtig wiedergibt. Beim Auswahlbias seh ich nur eine bestimmte Auswahl, die nicht die vollständige Situation widerspiegelt. Das ist schlecht, denn wenn etwas bei 99 von 100 Leuten nicht funktioniert hat, ist das natürlich die viel nützlichere Info.
Als der Bericht von dem einen Dude, wo’s geklappt hat. Gerade seit der Pandemie haben nicht wissenschaftlich
belegte Heilmittel Hochkonjunktur. Das haben wir auch durch die Aufrufzahlen unseres MMS-Videos gemerkt. MMS basiert auf dem Bleichmittel Chlordioxid, das im Körper nichts verloren hat. Trotzdem nehmen das Menschen ein oder machen sich Einläufe damit, weil es gegen alles Mögliche helfen soll. Von Autismus bis Malaria und neuerdings natürlich auch gegen Corona.
Und gerade, wenn man behauptet, dass etwas vorbeugend wirkt, ist eine Wirkung
besonders leicht eingebildet. Ich spül mir regelmäßig Bleichmittel in den Hintern und hab immer noch kein Corona. Denkt drüber nach! Das alles nur, um klarzumachen, dass Erfahrungsberichte leider wenig belegen. Wir brauchen ordentliche Forschung. Die Fehler und Biases von Selbsttests und Erfahrungsberichten im Netz kann man abfange durch ein ordentliches Studiendesign. Eine Testgruppe kriegt das Medikament. Eine Kontrollgruppe kriegt ein Placebo. Die Gruppen sind ausreichend groß, damit wir statistische Aussagekraft haben. Außerdem haben wir auch schon über statistische Signifikanz gesprochen. Sagen wir, man testet ein potentielles Covid19-Medikament. Und bei der Testgruppe
hören die Symptome etwas früher auf als bei der Kontrollgruppe. Könnte das jetzt nur Zufall gewesen sein? Klar, könnte. Die Frage ist, wie hoch ist die Wahrscheinlichkeit, dass das nur Zufall war? Und dafür führt man statistische Tests durch und ermittelt den Signifikanzwert oder p-Wert.
Je kleiner der p-Wert, desto unwahrscheinlicher ist es, dass es nur Zufall ist. Also der p-Wert wäre in unserem
Beispiel die Wahrscheinlichkeit, so einen Unterschied zwischen den Gruppen auch bei einem
wirkungslosen Medikament zu sehen. p = 0,1 entspricht einer Wahrscheinlichkeit von 1 in 10 oder 10 %. p = 0,01 entspricht einer Wahrscheinlichkeit von 1 in 100 oder 1 % usw. Man hat sich jetzt auf eine p-Wert-Grenze geeinigt, von der man sagt, so klein muss p mindestens sein, damit man überhaupt anfängt, über eine Wirkung nachzudenken. Diese Grenze liegt bei p < 0,05. Erst dann betrachten wir einen Unterschied als statistisch signifikant. 0,05 entspricht
einer Wahrscheinlichkeit von 5 % oder 1 in 20. Wie die Wahrscheinlichkeit, mit einem 20-seitigen Würfel eine Eins zu würfeln. Okay, solche wissenschaftliche Methoden dass man Kontrollgruppen hat, statistische Auswertungen macht usw. Es gibt ja noch mehr, das alles sorgt für die Verlässlichkeit und Aussagekraft von Wissenschaft.
Gut, aber leider … hat die Wissenschaft ihre ganz eigenen Probleme. Fangen wir an
mit etwas Offensichtlichem, was viele Laien aber nicht auf dem Schirm haben. Das ist keine Schwäche, sondern die Einleitung zur ersten Schwäche. Aber eins nach dem anderen. In der Forschung stellt man zunächst eine Hypothese auf. Also eine Vermutung. Hypothese: Schweizer Gletscherwasser mit halber Gurke hilft gegen Migräne. So ’ne Hypothese ist jetzt sehr random, aber testbar, und das ist die Hauptsache. Normalerweise sind wissenschaftliche Hypothesen nachvollziehbar begründet oder plausibel. Z. B. bei Covid19 kann eine überschießende Reaktion
des Immunsystems Probleme machen. Der Wirkstoff Dexamethason dämpft das Immunsystem. Deswegen Hypothese. Dexamethason könnte bei schweren Covid19-Verläufen das Schlimmste verhindern. Die Hypothesen werden als Nächstes getestet.
D. h. durch wissenschaftliche Studien auf die Probe gestellt. Die Wissenschaft hat es aber an sich, dass die meisten Hypothesen falsch sind. Also Wissenschaftler haben mit ihren Vermutungen über unerforschte Sachverhalte meistens unrecht. Wenn man’s wüsste, bräuchte man es nicht erforschen. In der Regel muss man eine Idee nach der anderen als falsch anerkennen. Wer selbst mal geforscht hat, weiß, wie ernüchternd das ist. Bis man irgendwann zu was kommt, wo man feststellt …
Alter! Das könnte stimmen. Aber was nicht funktioniert, ist ja genauso wichtig für den Erkenntnisgewinn wie, was funktioniert. Man irrt sich vorwärts. Deswegen ist das keine Schwäche, sondern eine Stärke. Man muss das auf dem Schirm haben, um den ersten Schwachpunkt zu verstehen. Wenn man wieder eine Hypothese
nicht aufgegangen ist, wird das selten veröffentlicht. Ist ja langweilig, nicht berichtenswert. Ein negatives Ergebnis kann z. B. sein, ich teste ein Medikament und stelle keine Wirksamkeit fest. Schuld sind aber nicht nur die Wissenschaftler, die negative Ergebnisse nicht gern an die große Glocke hängen. Nein, selbst wenn man eine Studie veröffentlichen möchte, bei der rausgekommen ist, hat leider nicht geklappt, weil, ist ja wichtig zu wissen … Selbst dann sagen die Fachzeitschriften meistens, Könnt ihr nicht veröffentlichen. Wer interessiert sich denn dafür? Das ist in vielerlei Hinsicht schlecht. Das kann dazu führen, dass positive Ergebnisse völlig überschätzt werden.
Weil man die vielen Studien mit negativen Ergebnissen nicht sieht. Im schlimmsten Fall kann das dazu führen, dass etwas Unwirksames als wirksam gilt. Wenn jetzt z.B. 20 Studien durchgeführt werden zu einem unwirksamen Medikament, dann wird statistisch gesehen in ungefähr einer dieser 20 Studien doch ein statistisch signifikantes Ergebnis rauskommen. Denkt an den 20-seitigen Würfel. Wenn jetzt aber diese Studie die einzige ist, die veröffentlicht wird, dann sagt ja die Studienlage, dass dieses wirkungslose Medikament
wirksam ist. Durch den Publication Bias passiert mit der Studienlage in der wissenschaftlichen Literatur etwas Ähnliches wie mit der Anekdotenlage auf Facebook. Ich hoffe, niemand verlässt vorzeitig dieses Video und denkt sich dann für immer: was ist Forschung für ein Scheiß! Es gibt auch Lösungen für die Probleme, dazu kommen wir später.
Denn es gibt ja noch mehr Probleme. WissenschaftlerInnen stehen unter hohem Leistungsdruck, gute Ergebnisse rauszuhauen. Das fängt in der Doktorarbeit an. Und wird nur krasser, wenn man danach versucht, eine Karriere in der akademischen Forschung zu verfolgen. An der Uni, in ’ner Forschungseinrichtung. Kurz gesagt: in academia. Wer sich für academia entscheidet, hat in der Regel eine Professur als Ziel. Doch obwohl sowieso nur
die exzellentesten Leute diesen Weg einschlagen, gibt es am Ende schlicht und einfach nicht genügend Professuren. Und bei all dem Druck wird akademische Leistung meist nur in einer Form gezählt.
Nämlich Publikationen. Paper, Paper. „Publish or perish“ ist das Motto. Publizieren oder verrecken. Und in Kombi mit der Tatsache, dass fast nur positive Ergebnisse publiziert werden, die eigentlich nicht erzwungen werden können, ist dieser Publikationsdruck … – … zum Kotzen! Sehr bedauerlich. So bedauerlich, dass ich schon mal ein Video drüber gemacht habe. Deswegen hier nur ein paar Aspekte. Z. B. schafft dieser Druck Anreize, dass Wissenschaftler nicht den interessantesten Fragen nachgehen, sondern denen, die am schnellsten publizierbare Daten hervorbringen. Auch wenn diese Daten weniger relevant sind. Also statt: Interessant, das muss ich mit der Welt teilen! wird es oft eher: Interessant. Was Neues für meine Publikationsliste. Jetzt stellt euch vor, eine Doktorandin hat ganz viel Zeit und Arbeit in ein aufwändiges Experiment gesteckt und erhält ein nicht-signifikantes Ergebnis. Sie steht womöglich noch unter Zeitdruck, weil der Vertrag ihrer Doktorarbeit
bald ausläuft und sie nicht mehr bezahlt wird. Sie aber publizieren muss, um promovieren zu können. Auch das leider eine True Story an einigen Unis. Die Doktorandin hat dann einen sehr hohen Anreiz, noch mal in ihre Daten zu schauen,
um zu gucken, ob nicht doch irgendwo ein signifikantes Ergebnis rauszuholen ist.
Und ich mein jetzt nicht Daten fälschen. Das passiert sicherlich auch. Knallharte Betrüger gibt es überall, aber das meine ich nicht mal. Wenn man eine Hypothese
wissenschaftlich testen will, darf man nicht die Hypothese anschließend anpassen oder ändern, nachdem man die Ergebnisse gesehen hat. Beispiel:
ich möchte experimentell belegen, dass ich treffsicher beim Dart bin. Bull’s Eye, pass auf. 14, ja. Genau das wollte ich treffen. Ich bin so gut. In der Wissenschaft nennt man das Harking. Das steht für … Wenn man im Nachhinein
die Hypothese anpasst, so dass sie zu den Ergebnissen passt. Und p-Hacking ist, wenn man so oft statistische Tests durchführt, bis irgendwann ein statistisch
signifikantes Ergebnis rauskommt. Ein paar Beispiele: Ich teste ein potentielles Medikament, aber es zeigt leider nicht die erhoffte Wirkung über den Placebo-Effekt hinaus.
Hm, aber vielleicht wirkt es bei Frauen? Auch nicht. Vielleicht nur bei Frauen mit Locken. Nur bei Frauen mit Locken, die gerne fernsehen? Dann heißt das Ergebnis nicht mehr: eine Wirkung konnte nicht nachgewiesen werden, sondern bei Frauen mit Locken, die gerne „Big Bang Theory“ schauen, gibt es eine statistisch-signifikante Wirkung. Dann tu ich so, als wollte ich die lockigen Frauen von Anfang an untersuchen. 14, ja! Oder ich möchte testen, ob Brokkoli reinere Haut macht. Ich hab zwei Gruppen, die eine isst täglich Brokkoli. die Kontrollgruppe nicht. Und am Ende kann ich keinen Unterschied in den Hautunreinheiten feststellen zwischen den Gruppen. Aber ich kann ja immer noch schauen, ob sich der Blutdruck verändert hat oder Spliss weniger geworden ist oder die Fingernägel schneller wachsen. Irgendwo werden sich die Gruppen rein zufällig schon unterscheiden.
Und wenn ich dann verkünde: Brokkoli macht längere Fingernägel, ist das eine Form des p-Hacking. Oder man wiederholt das Experiment infach ganz oft. Mit kleinen Abwandlungen. Solange, bis irgendwann ein p-Wert
kleiner 0,05 rauskommt. Wenn man oft genug würfelt, kommt auch irgendwann ’ne Eins. Und veröffentlicht man dann nur das statistisch-signifikante Ergebnis, ohne zu erwähnen, wie oft es nicht signifikant war, ist das auch p-Hacking. Bevor eine Studie publiziert werden darf, muss sie erst dem Peer-Review standhalten. D. h. der Überprüfung und Begutachtung, Review, durch Fachleute und Kollegen,
Peer. Hier hab ich Peer Review als Teil der Qualitätskontrolle in der Wissenschaft erklärt. Aber das ist leider nicht alles. Peer Review ist alles andere als ein perfekter Prozess. Z. B. sind zwar die Reviewer anonym. Damit ich als Autorin die nicht bequatschen kann oder bestechen. Aber andersrum wissen die Reviewer oft, von wem das Manuskript ist, das sie da begutachten. Klar gibt es da mal Reviewer, die bei ihren Homies nicht so genau hinschauen. Oder andersrum, die unbeliebten Konkurrenten das Leben extraschwer machen.