Das Bayes-Theorem ist ein fundamentales Konzept der Wahrscheinlichkeitsrechnung und Statistik, das eine formale Methode zur Aktualisierung von Wahrscheinlichkeiten auf der Grundlage neuer Informationen bietet. Es verbindet die sogenannte a-priori-Wahrscheinlichkeit einer Hypothese mit der a-posteriori-Wahrscheinlichkeit, also der Wahrscheinlichkeit nach Berücksichtigung zusätzlicher Beobachtungen oder Daten.
Mathematisch lässt sich das Theorem durch folgende Gleichung ausdrücken:
\(P(H|D) = \frac{P(D|H) \cdot P(H)}{P(D)}\)
Dabei stehen die Terme für:
- \(P(H|D)\): die a-posteriori-Wahrscheinlichkeit der Hypothese \(H\) gegeben die Daten \(D\)
- \(P(D|H)\): die Likelihood, also die Wahrscheinlichkeit, dass die Daten \(D\) unter der Annahme \(H\) auftreten
- \(P(H)\): die a-priori-Wahrscheinlichkeit der Hypothese \(H\)
- \(P(D)\): die marginale Wahrscheinlichkeit der Daten \(D\)
Das Bayes-Theorem liefert somit eine rationale Grundlage für lernende Systeme, deduktive Prozesse unter Unsicherheit und datengetriebene Entscheidungen. Besonders in Anwendungsbereichen wie der künstlichen Intelligenz, der Biostatistik oder der medizinischen Diagnostik zeigt sich die enorme praktische Relevanz dieses mathematischen Prinzips.
Historischer Hintergrund: Thomas Bayes und die Ursprünge
Das Theorem geht auf den englischen Theologen und Mathematiker Thomas Bayes (1701–1761) zurück. Bayes war ursprünglich kein hauptberuflicher Mathematiker, sondern Geistlicher und Philosoph. Erst posthum veröffentlichte Richard Price im Jahr 1763 eine Abhandlung mit dem Titel An Essay towards solving a Problem in the Doctrine of Chances, in der das Grundprinzip des später als Bayes-Theorem bekannten Satzes dargelegt wurde.
Bayes interessierte sich insbesondere für das Problem der Inferenz: Wie lässt sich aus beobachteten Daten auf die zugrunde liegende Ursache schließen? Zu jener Zeit dominierte der deterministische Ansatz der klassischen Wissenschaft. Bayes hingegen schlug vor, Unwissen und Unsicherheit mathematisch zu quantifizieren und Wahrscheinlichkeiten dynamisch zu aktualisieren.
Der eigentliche Durchbruch kam allerdings erst über 150 Jahre später. Während des Zweiten Weltkriegs fanden bayessche Methoden Einsatz in der Radar- und Raketenabwehrtechnik. Doch erst mit der Entwicklung leistungsfähiger Computer wurde es möglich, komplexe bayessche Modelle praktisch umzusetzen. In der zweiten Hälfte des 20. Jahrhunderts gewann der Ansatz zunehmend an Bedeutung, sowohl in der akademischen Forschung als auch in der industriellen Anwendung.
Relevanz in der heutigen Wissenschaft und Technik
Heute ist das Bayes-Theorem ein Eckpfeiler moderner Datenwissenschaft. In nahezu allen Disziplinen, in denen Unsicherheit quantifiziert und Entscheidungen auf Grundlage unvollständiger Informationen getroffen werden müssen, kommt es zur Anwendung. Es ist integraler Bestandteil von maschinellem Lernen, Robotik, Bioinformatik, Finanzanalyse, Epidemiologie, Linguistik und vielen weiteren Bereichen.
Ein zentrales Merkmal ist seine Flexibilität: Das Bayes-Theorem ermöglicht es, neues Wissen nahtlos in bestehende Hypothesenmodelle zu integrieren. Damit eignet es sich besonders für iterative Prozesse und kontinuierliches Lernen – sei es durch Menschen, Maschinen oder hybride Systeme.
In der künstlichen Intelligenz etwa dienen bayessche Modelle als Grundlage für lernfähige Algorithmen, die nicht nur Muster erkennen, sondern auch Wahrscheinlichkeiten anpassen können. Anwendungen wie automatische Spracherkennung, Empfehlungssysteme, autonome Fahrzeuge oder medizinische Diagnosesysteme profitieren von der Robustheit und mathematischen Klarheit bayesscher Ansätze.
Zusammenfassend lässt sich festhalten: Das Bayes-Theorem ist weit mehr als eine mathematische Formel – es ist eine Denkweise. Es erlaubt uns, in einer Welt voller Unsicherheit rational zu navigieren und datengetriebene Entscheidungen auf ein solides probabilistisches Fundament zu stellen.
Mathematische Grundlagen des Bayes-Theorems
Wahrscheinlichkeitsrechnung: Eine kurze Wiederholung
Um das Bayes-Theorem in seiner ganzen Tiefe zu verstehen, ist es hilfreich, sich zentrale Begriffe und Konzepte der Wahrscheinlichkeitsrechnung in Erinnerung zu rufen. Diese bilden das Fundament für alle weiterführenden Überlegungen.
Bedingte Wahrscheinlichkeiten
Die bedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit eines Ereignisses \(A\), gegeben dass ein anderes Ereignis \(B\) bereits eingetreten ist. Formal wird sie definiert als:
\(P(A|B) = \frac{P(A \cap B)}{P(B)}\)
Diese Definition besagt: Die Wahrscheinlichkeit von \(A\) unter der Bedingung \(B\) ist gleich der Wahrscheinlichkeit des gemeinsamen Eintretens von \(A\) und \(B\), geteilt durch die Wahrscheinlichkeit von \(B\).
Ein einfaches Beispiel: Wenn wir wissen, dass es regnet (\(B\)), wie wahrscheinlich ist es dann, dass jemand einen Regenschirm dabei hat (\(A\))?
Bedingte Wahrscheinlichkeiten sind das Herzstück des Bayes-Theorems, denn sie erlauben uns, Informationen zu aktualisieren.
Unabhängigkeit und Multiplikationssatz
Zwei Ereignisse \(A\) und \(B\) sind unabhängig, wenn das Eintreten des einen keinen Einfluss auf das andere hat. Mathematisch gilt:
\(P(A \cap B) = P(A) \cdot P(B)\)
Ist diese Gleichung nicht erfüllt, so sind die Ereignisse abhängig. Der sogenannte Multiplikationssatz verallgemeinert dies für abhängige Ereignisse:
\(P(A \cap B) = P(A|B) \cdot P(B)\)
Diese Formel zeigt: Wenn wir die Wahrscheinlichkeit eines Ereignisses unter einer Bedingung kennen, können wir die gemeinsame Wahrscheinlichkeit berechnen.
Satz der totalen Wahrscheinlichkeit
Der Satz der totalen Wahrscheinlichkeit erlaubt es, die Wahrscheinlichkeit eines Ereignisses \(B\) zu berechnen, indem man alle möglichen Ursachen \(A_i\) in Betracht zieht, die zu \(B\) führen können. Er lautet:
\(P(B) = \sum_{i} P(B|A_i) \cdot P(A_i)\)
Dabei ist die Menge \({A_1, A_2, …, A_n}\) eine vollständige Partition des Ereignisraums. Dieser Satz ist zentral für die Anwendung des Bayes-Theorems, denn der Nenner der Bayes-Formel basiert genau auf dieser Idee.
Das Bayes-Theorem im Detail
Das Bayes-Theorem baut auf den zuvor besprochenen Konzepten auf und bringt sie in eine elegante und weitreichende Form.
Die formale Formel
Das Bayes-Theorem in seiner elementaren Form lautet:
\(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\)
Hierbei steht \(A\) für eine Hypothese und \(B\) für die beobachteten Daten oder Evidenz.
Diese Gleichung erlaubt es uns, die bedingte Wahrscheinlichkeit \(P(A|B)\) – also die aktualisierte Wahrscheinlichkeit einer Hypothese nach Beobachtung – durch die Wahrscheinlichkeit der Daten unter der Hypothese \(P(B|A)\), die a-priori-Wahrscheinlichkeit der Hypothese \(P(A)\), und die Gesamtwahrscheinlichkeit der Daten \(P(B)\) zu berechnen.
Begriffsdeutung der Komponenten
Ein tieferes Verständnis der Formel ergibt sich durch die präzise Interpretation ihrer Bestandteile:
- \(P(A)\) ist die a-priori-Wahrscheinlichkeit, also die Annahme, wie wahrscheinlich die Hypothese \(A\) ist, bevor neue Daten vorliegen.
- \(P(B|A)\) ist die Likelihood, also die Wahrscheinlichkeit, dass die Beobachtung \(B\) eintritt, wenn \(A\) wahr ist.
- \(P(B)\) ist die marginale Wahrscheinlichkeit der Beobachtung – sie wirkt als Normierungsfaktor.
- \(P(A|B)\) ist die a-posteriori-Wahrscheinlichkeit, also die aktualisierte Wahrscheinlichkeit von \(A\), nachdem \(B\) beobachtet wurde.
Diese Terminologie ist insbesondere in der Statistik, der künstlichen Intelligenz und der medizinischen Diagnostik von zentraler Bedeutung.
Interpretation: Inferenz unter Unsicherheit
Das Bayes-Theorem ist mehr als nur eine mathematische Gleichung – es ist ein Prinzip rationaler Inferenz. Es erlaubt uns, Hypothesen kontinuierlich anhand neuer Daten zu aktualisieren. Dies ist besonders in dynamischen Umgebungen entscheidend, in denen Informationen inkrementell und unter Unsicherheit verfügbar sind.
Ein klassisches Beispiel: In der medizinischen Diagnostik kann das Bayes-Theorem verwendet werden, um die Wahrscheinlichkeit einer Krankheit nach einem positiven Testergebnis zu berechnen – unter Berücksichtigung der Testgenauigkeit und der Grundhäufigkeit der Erkrankung.
In solchen Fällen hilft das Theorem dabei, die intuitive Fehlinterpretation von Wahrscheinlichkeiten zu vermeiden, die oft aus dem sogenannten Base Rate Fallacy resultieren. Es zwingt uns dazu, alle relevanten Informationen – sowohl vorheriges Wissen als auch neue Evidenz – in einem konsistenten probabilistischen Rahmen zu vereinen.
Das Bayes-Theorem liefert somit nicht nur numerische Werte, sondern strukturiert auch unser Denken über Wissen, Unsicherheit und Lernen.
Anschauliche Beispiele und Anwendungen
Das Bayes-Theorem ist nicht nur ein theoretisches Konstrukt, sondern hat praktische Bedeutung in einer Vielzahl realer Kontexte. Die folgenden Beispiele zeigen, wie bayessche Überlegungen in Medizin, Recht, Technik und Wirtschaft zur Anwendung kommen – oft mit unmittelbarer Wirkung auf Entscheidungen von hoher Tragweite.
Medizinische Diagnostik
Die medizinische Diagnostik ist eines der prominentesten Anwendungsgebiete des Bayes-Theorems. Tests auf Krankheiten liefern keine absoluten Wahrheiten, sondern Wahrscheinlichkeiten. Hier hilft Bayes, die realistische Aussagekraft solcher Tests korrekt zu interpretieren.
Der Mammographie-Test: Wahrscheinlichkeiten richtig deuten
Stellen wir uns folgende Situation vor: Eine Frau unterzieht sich einem Mammographie-Test auf Brustkrebs. Der Test hat eine Sensitivität von 90 % (er erkennt 90 % der Krankheitsfälle) und eine Spezifität von 91 % (er erkennt 91 % der Gesunden korrekt). Die Prävalenz von Brustkrebs in der entsprechenden Altersgruppe beträgt 1 %.
Die Frage: Wenn der Test positiv ausfällt, wie wahrscheinlich ist es tatsächlich, dass die Patientin Brustkrebs hat?
Anwendung des Bayes-Theorems:
- \(P(K)\) = 0{,}01 (A-priori-Wahrscheinlichkeit für Krebs)
- \(P(\text{Positiv}|K)\) = 0{,}9 (Sensitivität)
- \(P(\text{Positiv}|\neg K)\) = 0{,}09 (1 – Spezifität)
- \(P(\text{Positiv}) = P(\text{Positiv}|K) \cdot P(K) + P(\text{Positiv}|\neg K) \cdot P(\neg K)\)
Also:
\(P(K|\text{Positiv}) = \frac{0{,}9 \cdot 0{,}01}{0{,}9 \cdot 0{,}01 + 0{,}09 \cdot 0{,}99} \approx 0{,}09\)
Trotz positivem Testergebnis beträgt die tatsächliche Wahrscheinlichkeit nur etwa 9 %. Diese oft kontraintuitive Einsicht ist ein Paradebeispiel für die Macht des Bayes-Theorems.
Fehlalarme und Sensitivität
Das obige Beispiel zeigt, wie wichtig die Berücksichtigung der Grundhäufigkeit (Prävalenz) ist. Ein hochsensitiver Test kann bei seltener Erkrankung dennoch viele falsch-positive Ergebnisse liefern.
Bayessche Analyse erlaubt es, diese Effekte quantifizierbar zu machen und die Verlässlichkeit diagnostischer Tests transparent zu bewerten. So lässt sich die positive prädiktive Wertigkeit eines Tests bestimmen – ein zentrales Kriterium für medizinische Entscheidungen.
Juristische Anwendungen
Auch im Rechtswesen findet das Bayes-Theorem zunehmend Beachtung – insbesondere wenn es um die Bewertung von Beweisen und Indizien geht.
DNA-Beweise und Bayes’sche Bewertung
Ein Verdächtiger wird am Tatort durch eine DNA-Spur belastet. Der Match-Wert beträgt 1:1.000.000. Auf den ersten Blick erscheint die Beweislage erdrückend. Doch auch hier ist der Kontext entscheidend.
Angenommen, es gibt eine Bevölkerung von 10 Millionen Personen. Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Unschuldiger zufällig dieselbe DNA hat, beträgt \(1/1{,}000{,}000\). Das bedeutet, dass es in der Bevölkerung etwa 10 Personen mit passendem DNA-Profil geben könnte.
Bayessch argumentiert man wie folgt:
- \(P(V)\): A-priori-Wahrscheinlichkeit, dass der Verdächtige schuldig ist
- \(P(D|V)\): Wahrscheinlichkeit eines DNA-Matches, wenn der Verdächtige schuldig ist (=1)
- \(P(D|\neg V)\): Wahrscheinlichkeit eines DNA-Matches bei Unschuld (=1/1.000.000)
- Daraus ergibt sich \(P(V|D)\) durch Anwendung des Bayes-Theorems
Ohne sinnvolle A-priori-Wahrscheinlichkeit ist der Beweis nicht eindeutig. Das Theorem zwingt uns zu logischer Strenge – eine wertvolle Korrektur bei emotional aufgeladenen Prozessen.
Der “Prosecutor’s Fallacy“
Ein klassischer Denkfehler in Gerichtssälen ist der Prosecutor’s Fallacy: Man verwechselt die Wahrscheinlichkeit eines Beweises unter Unschuld mit der Wahrscheinlichkeit von Unschuld unter dem Beweis.
Korrekt ist:
\(P(\text{unschuldig}| \text{Beweis}) \ne P(\text{Beweis}| \text{unschuldig})\)
Bayes-Theorie schützt vor solchen Fehlinterpretationen – vorausgesetzt, sie wird korrekt angewandt und kommuniziert.
Technik und KI
In der Technik und insbesondere in der künstlichen Intelligenz ist das Bayes-Theorem ein tragendes Element datenbasierter Entscheidungsmodelle.
Bayes-Klassifikatoren in der Mustererkennung
Ein Naiver Bayes-Klassifikator ist ein einfaches, aber hocheffizientes Verfahren zur Klassifikation von Datenpunkten. Die Idee ist, dass Merkmale als voneinander unabhängig angenommen werden – was rechnerisch enorme Vereinfachung bringt.
Formel:
\(P(C|x_1, x_2, …, x_n) \propto P(C) \cdot \prod_{i=1}^{n} P(x_i|C)\)
Hierbei ist \(C\) die zu klassifizierende Kategorie, und \(x_i\) sind die beobachteten Merkmale. Trotz der naiven Annahme der Unabhängigkeit ist der Naive Bayes-Klassifikator in vielen Anwendungen bemerkenswert effektiv.
Spamfilter und Spracherkennung
Ein klassisches Beispiel ist der Spamfilter. Hier wird für jede eingehende E-Mail anhand ihrer Wörter berechnet, ob sie eher zu den bekannten Spam- oder Nicht-Spam-Kategorien gehört.
Bayessche Filter bewerten z. B. das Auftreten von Begriffen wie „gratis“, „Gewinn“, „dringend“ u. ä. und kombinieren diese mit einem Wahrscheinlichkeitsmodell der Sprache – zuverlässig, schnell und lernfähig.
Auch in der Spracherkennung wird Bayes genutzt, um akustische Signale mit Sprachmodellen abzugleichen und die wahrscheinlichste Wortfolge zu identifizieren.
Wirtschaft und Finanzen
In der Welt der Ökonomie und der Finanzmärkte liefert Bayes eine robuste Grundlage für Unsicherheitsbewältigung und Risikoanalyse.
Risikobewertung und Entscheidungsfindung
Investoren und Analysten nutzen bayessche Modelle, um Risiken zu quantifizieren und Anlageentscheidungen datenbasiert zu justieren. Statt auf starre Schwellenwerte zu vertrauen, erlauben bayessche Methoden kontinuierliche Re-Kalibrierung der Erwartungen.
Beispiel: Die Wahrscheinlichkeit eines Börsencrashs nach Eintreten bestimmter Frühindikatoren kann mit historischen Daten aktualisiert werden – und so fundierte Handlungsstrategien liefern.
Vorhersage von Marktverhalten
Bayessche Modelle sind hervorragend geeignet für Bayesian Regression, Hidden Markov Models und andere Verfahren, die Verhaltensmuster in Daten extrahieren. Sie finden Anwendung in:
- Portfolio-Optimierung
- Kreditrisikoabschätzung
- Prognose von Kundenverhalten und Nachfrage
Durch ihre Fähigkeit, neue Daten dynamisch zu integrieren, sind sie traditionellen statistischen Verfahren häufig überlegen – besonders in volatilen, datenreichen Umgebungen.
Philosophische und methodologische Perspektiven
Das Bayes-Theorem ist nicht nur ein mathematisches Werkzeug – es ist zugleich ein erkenntnistheoretisches Paradigma. Es verändert unsere Sicht auf Wissen, Evidenz, Unsicherheit und Rationalität. Gerade im Kontrast zum klassischen Frequentismus entfaltet sich die ganze Tiefe der bayesschen Methodik.
Frequentismus vs. Bayes’sche Statistik
Unterschiedliche Denkweisen
In der Statistik existieren zwei große Denkschulen: der Frequentismus und der Bayesianismus. Beide liefern Antworten auf dieselbe Frage – doch die Definition von Wahrscheinlichkeit unterscheidet sich fundamental.
Im Frequentismus ist Wahrscheinlichkeit ein langfristiger relativer Anteil von Ereignissen in wiederholbaren Experimenten. Ein Ereignis hat dann eine Wahrscheinlichkeit von 0,3, wenn es in 30 % der unendlich vielen Wiederholungen eintritt. Die Hypothese selbst ist dabei entweder wahr oder falsch – Wahrscheinlichkeiten gelten nur für Daten, nicht für Theorien.
Im Bayesianismus hingegen wird Wahrscheinlichkeit als Grad des subjektiven Glaubens interpretiert – als eine quantifizierte Unsicherheit über die Wahrheit einer Hypothese. Hypothesen selbst können also Wahrscheinlichkeiten tragen, was flexible und dynamische Inferenzprozesse ermöglicht.
Die beiden Schulen unterscheiden sich somit nicht nur mathematisch, sondern auch philosophisch: während der Frequentismus Objektivität durch wiederholbare Experimente sucht, erkennt der Bayesianismus Unsicherheit als integralen Teil wissenschaftlichen Denkens an.
Kritiken und Verteidigungen
Frequentistische Statistiker kritisieren den Bayesianismus häufig wegen seiner Abhängigkeit von a-priori-Annahmen. Die Wahl von \(P(H)\) – also der A-priori-Wahrscheinlichkeit – sei subjektiv und potenziell willkürlich.
Bayesianer hingegen argumentieren, dass jede wissenschaftliche Analyse implizit Annahmen enthält – und dass es besser sei, diese explizit zu machen. Zudem erlaubt das Bayes-Theorem eine iterative Verfeinerung: Unsicherheit wird nicht ausgeblendet, sondern formalisiert.
Die Debatte bleibt lebendig – und konstruktiv. Beide Ansätze haben ihre Stärken: Der Frequentismus punktet bei standardisierten Tests mit klaren Signifikanzgrenzen, der Bayesianismus bei situationsbezogener Entscheidungsfindung und bei dynamischen Datenmodellen.
Die subjektive Interpretation von Wahrscheinlichkeit
Bayesianismus als erkenntnistheoretischer Rahmen
Im bayesschen Sinne ist Wahrscheinlichkeit Ausdruck eines rationalen Glaubenszustands – sie beschreibt, wie sehr wir auf Grundlage unseres Wissens eine Hypothese für plausibel halten. Diese Interpretation erlaubt es, mit unvollständiger Information konstruktiv umzugehen.
Der Bayesianismus bietet damit einen formalen Rahmen für rationales Lernen und kumulative Erkenntnisgewinnung. Neue Evidenz wird systematisch genutzt, um die Bewertung bestehender Hypothesen zu aktualisieren – ein Prozess, der tief in die Struktur wissenschaftlicher Praxis eingebettet ist.
Diese Sichtweise wird besonders in Bereichen wie KI, Risikoanalyse und kognitiver Wissenschaft übernommen, wo Systeme iterativ aus Erfahrung lernen und probabilistische Schlussfolgerungen ziehen.
Debatten um Objektivität
Ein wiederkehrendes Argument gegen bayessche Methoden ist der Vorwurf mangelnder Objektivität: Wenn Wahrscheinlichkeiten subjektiv sind, verliert dann die Wissenschaft nicht ihren Anspruch auf Neutralität?
Doch genau hier setzt die bayessche Antwort an: Subjektivität ist nicht Beliebigkeit. Sie ist quantifizierbar, explizit formulierbar und damit überprüfbar. Unterschiedliche Forscher können unterschiedliche A-prioris verwenden – doch durch Datenkonvergenz werden ihre Posterior-Verteilungen langfristig ähnlich.
Die Objektivität ergibt sich somit nicht aus der Eliminierung von Subjektivität, sondern aus der strukturierten Kontrolle und Transparenz des gesamten Inferenzprozesses.
Bayes’sche Inferenz in der Wissenschaftstheorie
Hypothesentestung und Evidenz
Traditionelle Hypothesentests basieren auf Nullhypothesen, Signifikanzniveaus und p-Werten. Doch diese frequentistischen Verfahren liefern keine direkte Aussage über die Wahrscheinlichkeit einer Hypothese selbst.
Im Gegensatz dazu ermöglicht die bayessche Inferenz genau das: Sie berechnet \(P(H|D)\) – die Wahrscheinlichkeit einer Hypothese \(H\), gegeben beobachtete Daten \(D\). Das führt zu einem direkteren, oft intuitiverem Umgang mit wissenschaftlicher Evidenz.
Ein Beispiel: Statt zu fragen, ob ein Ergebnis „signifikant“ ist, kann man direkt berechnen, mit welcher Wahrscheinlichkeit eine Theorie wahr ist – basierend auf den Daten und der bisherigen Forschung.
Wissenschaftlicher Fortschritt als bayesscher Prozess
Der Prozess der wissenschaftlichen Erkenntnis kann insgesamt als bayesscher Zyklus verstanden werden:
- Formulierung einer Hypothese (mit initialem \(P(H)\))
- Sammlung von Daten \(D\)
- Aktualisierung der Hypothesenwahrscheinlichkeit mittels Bayes-Theorem
- Vergleich konkurrierender Theorien
- Iteration mit neuen Daten
Dieser Zyklus spiegelt die tatsächliche Praxis vieler Disziplinen wider – besonders in Bereichen mit hohem Maß an Unsicherheit, komplexen Modellen und dynamischen Datensätzen.
Bayessche Wissenschaftstheorie betrachtet also Wissen nicht als statisch, sondern als dynamisch akkumulierbar. Erkenntnis ist nicht binär („wahr“ oder „falsch“), sondern graduell, kontextsensitiv und evidenzbasiert.
Moderne Erweiterungen und algorithmische Umsetzungen
Die zunehmende Rechenleistung und algorithmische Innovationen haben das Bayes-Theorem aus der Theorie in eine Vielzahl praktischer Anwendungen katapultiert. Komplexe Modelle, die früher als unlösbar galten, lassen sich heute mithilfe probabilistischer Inferenzverfahren analysieren. In diesem Abschnitt werfen wir einen Blick auf zentrale Erweiterungen und Algorithmen, die das Bayes-Theorem zum Rückgrat moderner Datenanalyse machen.
Bayes’sche Netzwerke
Bayes’sche Netzwerke sind gerichtete, azyklische Graphen, in denen Wahrscheinlichkeitsbeziehungen zwischen Variablen modelliert werden. Sie ermöglichen es, komplexe kausale Zusammenhänge übersichtlich darzustellen und effizient zu analysieren.
Struktur und semantische Bedeutung
Ein Bayes’sches Netzwerk besteht aus:
- Knoten: repräsentieren Zufallsvariablen
- Kanten: stellen bedingte Abhängigkeiten zwischen den Variablen dar
- Wahrscheinlichkeitsverteilungen: jedem Knoten ist eine Verteilung zugewiesen, bedingt durch seine Eltern im Graph
Beispiel: Ein medizinisches Netzwerk könnte Variablen wie „Rauchen“, „Lungenkrebs“ und „Husten“ enthalten. Die Struktur bildet ab, dass Rauchen die Wahrscheinlichkeit für Lungenkrebs erhöht, welcher wiederum zu Husten führen kann.
Solche Netze kodieren sowohl kausale als auch probabilistische Informationen – ein großer Vorteil gegenüber klassischen Korrelationsmodellen.
Inferenzmechanismen
Die Inferenz in Bayes’schen Netzwerken erfolgt über das Aktualisieren von Wahrscheinlichkeiten angesichts beobachteter Werte. Zentral ist hier der Begriff der Belief Propagation.
Wenn beispielsweise eine Variable beobachtet wird, werden die Wahrscheinlichkeiten in anderen Teilen des Netzwerks angepasst – mithilfe des Bayes-Theorems.
Die rechnerische Umsetzung erfolgt oft durch algorithmische Verfahren wie:
- Variable Elimination
- Junction Tree Algorithmus
- Approximation durch Sampling-Methoden
Die Stärke bayesscher Netze liegt in ihrer Skalierbarkeit, Transparenz und Fähigkeit zur Modellierung unsicherer Systeme mit struktureller Klarheit.
MCMC-Methoden (Markov Chain Monte Carlo)
Markov Chain Monte Carlo (MCMC) ist ein Sammelbegriff für Verfahren, die es ermöglichen, aus komplexen Wahrscheinlichkeitsverteilungen zu sampeln – selbst wenn deren analytische Form nicht bekannt ist.
Motivation und Grundprinzipien
Bayessche Modelle führen oft zu Posterior-Verteilungen, die zwar definierbar, aber nicht direkt berechenbar sind. In solchen Fällen liefert MCMC eine praktische Lösung.
Die Idee: Statt die Verteilung exakt zu berechnen, erzeugt man durch eine Markow-Kette eine große Stichprobe, die die Zielverteilung approximiert. Mit dieser Stichprobe lassen sich dann statistische Kennwerte schätzen.
Eine Markow-Kette ist ein Prozess, bei dem der nächste Zustand nur vom aktuellen Zustand abhängt – nicht von der Vorgeschichte.
Gibbs Sampling und Metropolis-Hastings
Zwei populäre MCMC-Verfahren sind:
Gibbs Sampling:
Hierbei wird jede Variable iterativ neu gesampelt, bedingt auf den aktuellen Werten der übrigen Variablen. Der Algorithmus nutzt die bedingten Wahrscheinlichkeiten und konvergiert gegen die Zielverteilung.
Metropolis-Hastings-Algorithmus:
Dieses Verfahren basiert auf einem Vorschlagsmechanismus: Ein neuer Zustand wird vorgeschlagen und mit einer bestimmten Akzeptanzwahrscheinlichkeit übernommen. Diese Wahrscheinlichkeit hängt vom Verhältnis der Zielverteilungen ab.
Die Formel zur Akzeptanz lautet:
\(\alpha = \min\left(1, \frac{P(x’) \cdot Q(x | x’)}{P(x) \cdot Q(x’ | x)}\right)\)
Dabei ist \(Q\) die Vorschlagsverteilung und \(P\) die Zielverteilung. Der Algorithmus garantiert, dass die Stichprobe langfristig der gewünschten Verteilung folgt.
Naive Bayes in Machine Learning
Der Naive Bayes-Klassifikator zählt zu den einfachsten, aber wirkungsvollsten Algorithmen des maschinellen Lernens – besonders in der Textklassifikation und bei großen Datenmengen.
Aufbau und Annahmen
Der Kern des Algorithmus basiert auf folgender Formel:
\(P(C|x_1, x_2, …, x_n) \propto P(C) \cdot \prod_{i=1}^{n} P(x_i|C)\)
Dabei ist \(C\) die zu klassifizierende Kategorie (z. B. „Spam“ oder „Nicht-Spam“), und \(x_i\) sind die Merkmale (z. B. Wörter in einer E-Mail).
Der „naive“ Aspekt liegt in der Annahme, dass die Merkmale \(x_i\) untereinander unabhängig sind – was in der Realität oft nicht zutrifft, aber dennoch erstaunlich gute Ergebnisse liefert.
Einsatz in NLP und Textanalyse
In der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) hat der Naive Bayes-Klassifikator breite Anwendung gefunden:
- Spam-Erkennung
- Sentiment-Analyse
- Themenklassifikation
- Autorenerkennung
Dank seiner Einfachheit, Robustheit gegenüber Rauschen und schnellen Lernzeiten ist er ein bevorzugtes Werkzeug in produktiven Systemen und als Baseline-Modell in der Forschung.
Bayesian Deep Learning
Deep Learning basiert auf neuronalen Netzen, die aus großen Datenmengen komplexe Muster lernen. Der klassische Ansatz liefert jedoch keine Angabe darüber, wie sicher oder unsicher die Vorhersage ist. Hier kommt der bayessche Ansatz ins Spiel.
Unsicherheiten in neuronalen Netzen
Bayesian Deep Learning erweitert klassische Netzwerke um probabilistische Strukturen. Dabei werden die Gewichte selbst als Zufallsvariablen modelliert und nicht als feste Werte angenommen.
Dies führt zu einer Posterior-Verteilung über die Modellparameter:
\(P(w | D) = \frac{P(D | w) \cdot P(w)}{P(D)}\)
Statt eines festen Modells erhalten wir eine Verteilung von möglichen Modellen – und damit eine quantifizierte Unsicherheit über Vorhersagen.
Solche Verfahren ermöglichen es, nicht nur „Was ist die richtige Klasse?“ zu fragen, sondern auch: „Wie sicher bin ich, dass sie richtig ist?“
Kombination klassischer KI mit probabilistischen Methoden
Bayessches Denken lässt sich mit modernen Deep-Learning-Frameworks kombinieren, etwa durch:
- Bayesian Neural Networks
- Monte Carlo Dropout
- Variational Inference
Das Ergebnis sind Modelle, die robuster gegenüber Overfitting sind, Unsicherheiten quantifizieren und besser auf unbekannte Daten reagieren können.
Bayesian Deep Learning gilt heute als Schlüsseltechnologie für sicherheitskritische Anwendungen in der Medizin, autonomen Mobilität und Finanzanalyse – überall dort, wo Entscheidungen nicht nur akkurat, sondern auch verantwortbar getroffen werden müssen.
Fallstudien und empirische Evidenz
Bayessche Methoden entfalten ihre Stärke besonders dort, wo Unsicherheit herrscht, Daten unvollständig sind und kontinuierliches Lernen erforderlich ist. In diesem Kapitel betrachten wir ausgewählte Fallstudien aus verschiedenen Disziplinen, in denen das Bayes-Theorem zur konkreten Anwendung kommt – mit spürbarem Einfluss auf Erkenntnis und Handlung.
Epidemiologie und Pandemiemodellierung
Die COVID-19-Pandemie hat gezeigt, wie entscheidend probabilistische Modelle für die Interpretation von Daten und die Gestaltung politischer Maßnahmen sein können.
COVID-19: Prognosen auf bayesscher Grundlage
Zu Beginn der Pandemie waren die Datenlage unsicher, viele Parameter – wie die Reproduktionszahl \(R_t\) oder die Dunkelziffer der Infizierten – kaum bekannt. Bayessche Modelle erlaubten es, diese Unsicherheiten direkt in die Prognosen einzubeziehen.
Beispielhaft ist das Bayesian Hierarchical Model, das unterschiedliche Regionen mit eigenen lokalen Parametern modelliert, aber über eine gemeinsame Struktur verbindet. Neue Daten werden dabei laufend integriert, die Schätzwerte aktualisiert.
Eine typische Formelstruktur:
\(P(\theta_i | D_i) = \frac{P(D_i | \theta_i) \cdot P(\theta_i | \phi)}{P(D_i | \phi)}\)
Hierbei bezeichnet \(\theta_i\) die lokalen Parameter (z. B. Infektionsraten), \(D_i\) die zugehörigen Daten und \(\phi\) übergeordnete Hyperparameter. Dieses Modell ermöglichte robuste Vorhersagen, auch unter hoher Unsicherheit.
Unsicherheiten in Echtzeit-Entscheidungen
Regierungen mussten während COVID-19 Entscheidungen unter Zeitdruck treffen – oft basierend auf unvollständigen oder widersprüchlichen Informationen. Bayessche Entscheidungsmodelle boten hier den Vorteil, Unsicherheiten zu quantifizieren und verschiedene Szenarien probabilistisch gegeneinander abzuwägen.
Beispiel: Die Entscheidung über Lockdowns konnte auf der Grundlage von Expected Utility erfolgen, wobei sowohl die epidemiologische Entwicklung als auch wirtschaftliche und soziale Effekte einflossen – gewichtet durch Wahrscheinlichkeiten und Nutzenfunktionen.
Astronomie und Teilchenphysik
In Bereichen, in denen seltene Phänomene von großem wissenschaftlichem Interesse sind, bietet das Bayes-Theorem eine elegante Lösung für das Problem der spärlichen Evidenz.
Detektion seltener Ereignisse
In der Teilchenphysik werden Experimente mit Milliarden Teilchenkollisionen durchgeführt – doch gesuchte Ereignisse wie die Signatur eines Higgs-Bosons sind extrem selten. Wie entscheidet man, ob ein beobachtetes Signal bedeutungsvoll ist?
Bayessche Analyse ermöglicht es, die Evidenz für verschiedene physikalische Modelle direkt zu vergleichen. Anstatt nur einen p-Wert zu berechnen, wird die Wahrscheinlichkeit für das Vorliegen eines neuen Teilchens gegenüber der Standardtheorie evaluiert.
Typischerweise geschieht dies durch den Bayes-Faktor:
\(BF = \frac{P(D | H_1)}{P(D | H_0)}\)
Dabei steht \(H_1\) für die Hypothese eines neuen Teilchens, \(H_0\) für das Standardmodell. Ein hoher Bayes-Faktor spricht für die neue Theorie – auch bei schwacher Signifikanz.
Bayesianische Modellwahl
In der Kosmologie werden konkurrierende Theorien über die Struktur des Universums bewertet – etwa hinsichtlich der Existenz dunkler Materie oder dunkler Energie. Hier bietet die bayessche Modellwahl eine Möglichkeit, die Plausibilität komplexer, nicht-nestbarer Modelle zu quantifizieren.
Ein Vorteil ist die automatische Berücksichtigung von Modellkomplexität – ein zu komplexes Modell wird durch den Occam-Faktor implizit bestraft. Dies führt zu balancierten Entscheidungen zwischen Modellgüte und Einfachheit.
Soziale Netzwerke und Verhalten
Auch in den Sozialwissenschaften und der digitalen Interaktion ist das Bayes-Theorem zunehmend von Bedeutung – insbesondere im Bereich dynamischer Entscheidungsprozesse und personalisierter Systeme.
Meinungsausbreitung und Belief Updating
In sozialen Netzwerken verbreiten sich Informationen nicht deterministisch, sondern entlang probabilistischer Pfade. Meinungsbildung geschieht unter Unsicherheit – beeinflusst durch Freundeskreise, Medien, Algorithmen.
Bayessche Modelle wie das DeGroot-Modell und seine Erweiterungen bilden diese Prozesse formal ab:
\(P_i^{(t+1)} = \sum_{j} w_{ij} \cdot P_j^{(t)}\)
Hier steht \(P_i^{(t)}\) für den Glauben eines Akteurs \(i\) zur Zeit \(t\), und \(w_{ij}\) für den Einfluss von Person \(j\) auf \(i\). Solche Modelle lassen sich mit Bayes’scher Inferenz kalibrieren – und liefern wichtige Einblicke in Polarisierung, Konsensbildung oder Fake-News-Dynamiken.
Recommender-Systeme
Bayessche Verfahren bilden das Fundament vieler Empfehlungsdienste – ob bei Netflix, Amazon oder Spotify. Ziel ist es, aus vergangenen Nutzerentscheidungen auf zukünftige Präferenzen zu schließen.
Hierbei kommen u. a. Bayesian Matrix Factorization und Hierarchical Bayesian Models zum Einsatz. Nutzerpräferenzen und Item-Eigenschaften werden als latente Variablen modelliert, deren Wahrscheinlichkeitsverteilungen laufend aktualisiert werden.
Die Vorhersagequalität verbessert sich dabei iterativ mit jeder neuen Nutzeraktion – ein Paradebeispiel für Bayesian Learning in Action.
Herausforderungen, Kritik und Zukunftsperspektiven
Trotz seiner Eleganz und universellen Anwendbarkeit ist das Bayes-Theorem kein Allheilmittel. In der Praxis stößt es auf methodische, rechentechnische und ethische Hürden. Gleichzeitig inspiriert es neue Denkansätze, interdisziplinäre Methoden und zukünftige Technologien.
Rechenaufwand und Skalierbarkeit
Ein zentrales praktisches Problem bei der Anwendung des Bayes-Theorems in großen Datenmodellen ist der Rechenaufwand. Während die Formel in ihrer Grundform simpel wirkt, wachsen in realen Anwendungen die Komplexität und Dimensionalität der Wahrscheinlichkeitsräume exponentiell.
Gerade bei bayesschen Netzwerken oder Bayesian Deep Learning ergibt sich das Problem der Curse of Dimensionality. Das heißt: Je mehr Parameter in einem Modell enthalten sind, desto schwieriger wird es, die Posterior-Verteilung effizient zu berechnen.
Analytisch nicht lösbare Integrale wie:
\(P(H|D) = \frac{P(D|H) \cdot P(H)}{\int P(D|H) \cdot P(H) , dH}\)
werden oft numerisch über MCMC-Methoden oder Variational Inference angenähert – was enorm rechenintensiv sein kann. Moderne Forschung fokussiert daher auf neue Algorithmen, hardwarebeschleunigte Inferenz (z. B. durch GPUs) und hybride Ansätze mit tiefen neuronalen Netzen.
Modellunsicherheit und Prior-Wahl
Ein häufig diskutierter Kritikpunkt betrifft die Wahl der a-priori-Wahrscheinlichkeit \(P(H)\). Diese ist notwendig für bayessche Inferenz – kann aber subjektiv, fehleranfällig oder intransparent sein.
Gerade in politischen oder medizinischen Kontexten stellt sich die Frage: Wer bestimmt, welches Vorwissen angemessen ist?
Zur Abmilderung dieses Problems wurden verschiedene Ansätze entwickelt:
- Nicht-informative Priors: Ziel ist es, eine möglichst neutrale Anfangsverteilung zu wählen, etwa durch Jeffreys Priors oder MaxEnt-Prinzipien.
- Empirische Priors: Vorwissen wird aus vorherigen Daten geschätzt.
- Hierarchische Modelle: Priors werden selbst als veränderliche Größen behandelt, oft mit eigenen Hyperparametern.
Trotzdem bleibt die Prior-Wahl eine anspruchsvolle Kunst – sie erfordert tiefes Verständnis des Anwendungsbereichs und große methodische Sorgfalt.
Ethische Überlegungen bei probabilistischen Entscheidungen
Bayessche Verfahren spielen zunehmend eine Rolle in automatisierten Entscheidungssystemen – etwa in Justiz, Kreditvergabe, Personalwesen oder Medizin. Diese Systeme treffen keine Entscheidungen im klassischen Sinne, sondern berechnen Wahrscheinlichkeiten.
Doch hier beginnt das ethische Spannungsfeld: Wie gehen wir mit Entscheidungen um, die nicht deterministisch, sondern probabilistisch motiviert sind?
Beispiel: Ein KI-System berechnet eine Rückfallwahrscheinlichkeit für Straftäter. Wie hoch darf diese sein, bevor eine Entscheidung gegen Bewährung getroffen wird? Welche Rolle spielt das Vorwissen (z. B. sozioökonomische Merkmale) – und wie verhindert man Diskriminierung?
Bayessche Modelle liefern keine Antworten auf normative Fragen – sie strukturieren unsere Unsicherheit. Die ethische Bewertung ihrer Outputs bleibt Aufgabe des Menschen.
Transparenz, Fairness und Rechenschaftspflicht sind daher zentrale Forschungsfelder im Bereich Fair Bayesian Inference und Explainable AI (XAI).
Perspektiven: Kombinatorik, Quanten-Bayes und Beyond
Die Zukunft des Bayes’schen Denkens ist offen, dynamisch – und inspirierend.
Kombinatorische Bayes-Modelle:
Immer mehr Forschung widmet sich der Integration bayesscher Methoden mit komplexen diskreten Strukturen – etwa in der Graphentheorie, Bioinformatik oder in linguistischen Modellen. Hier werden Wahrscheinlichkeiten auf Mengen, Permutationen oder Baumstrukturen angewandt.
Bayes auf Quantencomputern:
Mit dem Aufkommen der Quanteninformatik entstehen neue Möglichkeiten, bayessche Inferenz auf quantenmechanischer Ebene zu realisieren. Projekte wie Quantum Bayesian Networks oder Variational Quantum Inference erforschen, wie Quantenparallelität die Rechenlast klassischer Methoden drastisch reduzieren könnte.
Beyond Bayes:
Auch jenseits klassischer Bayes’scher Modelle entstehen neue probabilistische Paradigmen: etwa imprecise probabilities, credal sets oder Dempster-Shafer-Theorie, die Unsicherheit noch flexibler fassen wollen – insbesondere dort, wo sich keine eindeutige Priorverteilung angeben lässt.
Was bleibt, ist die zentrale Idee: Lernen unter Unsicherheit ist keine Schwäche, sondern ein strukturiertes Erkenntnisinstrument. Das Bayes-Theorem hat dieses Denken revolutioniert – und es wird auch in kommenden Generationen die Schnittstelle zwischen Daten, Wissen und Entscheidung prägen.
Fazit
Das Bayes-Theorem ist weit mehr als eine mathematische Formel – es ist ein Fundament rationaler Inferenz, eine universelle Sprache des Umgangs mit Unsicherheit und eine Brücke zwischen Daten und Entscheidung. Seine Eleganz liegt in der Einfachheit, seine Kraft in der Breite der Anwendung: Von der medizinischen Diagnostik über juristische Bewertung bis hin zu künstlicher Intelligenz, Finanzprognosen und kosmologischen Theorien – überall, wo Wissen unvollständig ist, hilft Bayes, Licht ins Dunkel zu bringen.
Der zentrale Gedanke des Bayes’schen Ansatzes – Wissen wird durch Erfahrung aktualisiert – spiegelt nicht nur ein mathematisches Prinzip, sondern auch ein zutiefst menschliches Lernverhalten wider. In einer Welt, die von Unsicherheiten, widersprüchlichen Informationen und ständig neuen Daten geprägt ist, liefert das Bayes-Theorem ein robustes, dynamisches und transparentes Werkzeug zum Denken und Entscheiden.
Gleichzeitig ist der bayessche Weg kein einfacher. Die methodischen Herausforderungen sind real: Rechenkomplexität, die Wahl angemessener Priors und die ethische Verantwortung im Umgang mit probabilistischen Systemen fordern Sorgfalt, Reflexion und interdisziplinären Dialog. Doch genau darin liegt auch seine Stärke: Wer Bayes ernst nimmt, denkt nicht nur statistisch – sondern auch verantwortungsbewusst, lernfähig und zukunftsorientiert.
Im Zeitalter von Big Data, Künstlicher Intelligenz und algorithmischem Denken steht das Bayes-Theorem sinnbildlich für eine neue Wissenschaftlichkeit: eine, die Unsicherheit nicht verdrängt, sondern nutzt – als Ressource für Erkenntnis, Innovation und kluge Entscheidungen.
Mit freundlichen Grüßen
Referenzen
Wissenschaftliche Zeitschriften und Artikel
- Berger, J. O. (1985): Statistical Decision Theory and Bayesian Analysis. Journal of the American Statistical Association.
- Spiegelhalter, D. J., & Best, N. G. (2002): Bayesian measures of model complexity and fit. Journal of the Royal Statistical Society: Series B.
- Kass, R. E., & Raftery, A. E. (1995): Bayes factors. Journal of the American Statistical Association.
- Carpenter, B. et al. (2017): Stan: A probabilistic programming language. Journal of Statistical Software.
- Ghosh, J. K., Delampady, M., & Samanta, T. (2006): An Introduction to Bayesian Analysis: Theory and Methods. Springer.
Bücher und Monographien
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013): Bayesian Data Analysis (3rd ed.). CRC Press.
- McGrayne, S. B. (2011): The Theory That Would Not Die: How Bayes’ Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy. Yale University Press.
- Jaynes, E. T. (2003): Probability Theory: The Logic of Science. Cambridge University Press.
- Robert, C. P. (2007): The Bayesian Choice: From Decision-Theoretic Foundations to Computational Implementation. Springer.
Online-Ressourcen und Datenbanken
- Stanford Encyclopedia of Philosophy – Artikel zu „Bayesian Epistemology“
- SpringerLink und ScienceDirect – Suchbegriff: „Bayesian Inference“
- arXiv.org – Preprints zu Bayes’scher Statistik, Machine Learning und Physik
- Coursera, edX, Khan Academy – Einführungskurse in Bayessche Statistik
- PyMC3 und Stan – Dokumentation und Tutorials zu probabilistischem Programmieren
- Seeing Theory – Interaktive Visualisierungen für statistisches Denken
Anhänge
Anhang 1: Glossar der Begriffe
- A-priori-Wahrscheinlichkeit: Anfangswahrscheinlichkeit einer Hypothese vor Berücksichtigung neuer Daten.
- A-posteriori-Wahrscheinlichkeit: Aktualisierte Wahrscheinlichkeit nach Berücksichtigung neuer Daten, berechnet mittels Bayes-Theorem.
- Likelihood: Die Wahrscheinlichkeit der beobachteten Daten unter einer gegebenen Hypothese.
- Bayes-Faktor: Verhältnis der Likelihoods zweier konkurrierender Hypothesen, dient zur Modellwahl.
- Markov Chain Monte Carlo (MCMC): Stochastisches Verfahren zur Approximation von komplexen Wahrscheinlichkeitsverteilungen.
- Naiver Bayes-Klassifikator: Maschinelles Lernverfahren, das das Bayes-Theorem unter der Annahme unabhängiger Merkmale nutzt.
- Bayes’sches Netzwerk: Graphisches Modell zur Darstellung und Berechnung bedingter Wahrscheinlichkeiten zwischen Variablen.
- Posterior-Verteilung: Verteilung der Parameter eines Modells nach Beobachtung der Daten.
- Variational Inference: Näherungsverfahren zur Berechnung komplexer Posterior-Verteilungen durch Optimierung.
- Belief Propagation: Algorithmus zur Wahrscheinlichkeitsverteilung in Bayes’schen Netzwerken.
Anhang 2: Zusätzliche Ressourcen und Lesematerial
- Online-Tutorials und Kurse
- “Bayesian Statistics: From Concept to Data Analysis” – Coursera, University of California, Santa Cruz
- “Bayesian Methods for Machine Learning” – Coursera, Higher School of Economics
- Bayesian Modeling with PyMC – offizielle Dokumentation (https://www.pymc.io)
- Visualisierungen und interaktive Tools
- Seeing Theory – https://seeing-theory.brown.edu
- Bayes Rule Applets – http://faculty.chicagobooth.edu/utpal.dholakia/ba.html
- Interactive Bayes Playground – https://explorabl.es/bayes/
- Softwarebibliotheken
- PyMC3 – Probabilistic Programming in Python
- Stan – State-of-the-art Bayesian modeling language
- TensorFlow Probability – Erweiterung von TensorFlow für Bayesian Deep Learning
- Edward2 – Bayesian Modeling für fortgeschrittene Deep Learning Anwendungen