TD-Fehler (Temporale Differenzfehler)

TD-Fehler (Temporale Differenzfehler Fehler)

Der Temporale Differenzfehler (TD-Fehler) ist ein zentrales Konzept im Bereich des maschinellen Lernens, speziell im Rahmen des Verstärkungslernens (Reinforcement Learning). Er misst die Differenz zwischen den prognostizierten und tatsächlich erhaltenen Belohnungen in aufeinanderfolgenden Zuständen eines Lernprozesses.

Mathematisch wird der TD-Fehler durch die Formel \(TD(t) = R_{t+1} + \gamma V(S_{t+1}) – V(S_t)\) ausgedrückt, wobei \(R_{t+1}\) die Belohnung zum Zeitpunkt \(t+1\), \(\gamma\) den Diskontierungsfaktor, \(V(S_{t+1})\) den prognostizierten Wert des zukünftigen Zustands und \(V(S_t)\) den geschätzten Wert des aktuellen Zustands repräsentiert. Der TD-Fehler spielt eine entscheidende Rolle bei der Aktualisierung und Verbesserung der Wertfunktion eines Agenten im Laufe der Zeit, wodurch dieser effektiver strategische Entscheidungen treffen kann.

Historischer Hintergrund und Entwicklung

Die Ursprünge des TD-Lernens gehen auf die 1980er Jahre zurück, als Forscher wie Richard S. Sutton und Andrew G. Barto die grundlegenden Prinzipien des Verstärkungslernens erarbeiteten. Ihre Arbeit führte zur Entwicklung des TD-Lernalgorithmus, der eine Brücke zwischen traditionellen dynamischen Programmiermethoden und Monte-Carlo-Methoden schlug. Im Gegensatz zu diesen Methoden, die entweder vollständige Kenntnis des Umweltmodells voraussetzen oder ausschließlich auf endgültigen Ergebnissen basieren, ermöglicht das TD-Lernen das Lernen direkt aus der Erfahrung, ohne das Modell der Umwelt vollständig zu kennen und ohne die Notwendigkeit, auf ein endgültiges Ergebnis zu warten. Diese Innovation eröffnete neue Möglichkeiten für das Lernen in komplexen, dynamischen Umgebungen.

Überblick über die Anwendungsbereiche von TD-Lernen

TD-Lernen findet Anwendung in einer Vielzahl von Bereichen, in denen Entscheidungsfindung unter Unsicherheit eine Rolle spielt. Zu den prominentesten Anwendungsgebieten gehören:

  • Spiele: Von Brettspielen wie Schach und Go bis hin zu Computerspielen verwendet das TD-Lernen Bewertungsfunktionen, um die Spielstärke künstlicher Intelligenzen zu verbessern.
  • Robotik: Im Bereich der Robotik ermöglicht das TD-Lernen Robotern, aus Interaktionen mit ihrer Umwelt zu lernen und ihre Handlungen basierend auf der erwarteten Effektivität zu optimieren.
  • Finanzwirtschaft: TD-Methoden werden eingesetzt, um Modelle für die Vorhersage von Marktbewegungen zu trainieren, indem sie aus historischen Daten lernen und zukünftige Trends prognostizieren.
  • Gesundheitswesen: In der medizinischen Forschung und Praxis kann TD-Lernen dazu beitragen, Behandlungsstrategien zu optimieren, indem es aus Patientendaten lernt und individualisierte Empfehlungen bietet.

Die Vielseitigkeit und Effizienz des TD-Lernens machen es zu einem mächtigen Werkzeug in der modernen künstlichen Intelligenz, dessen Anwendungsbereiche stetig wachsen. Die fortlaufende Forschung in diesem Bereich verspricht weiterhin bedeutende Fortschritte und Innovationen, die das Potenzial des TD-Lernens in Zukunft noch weiter ausschöpfen werden.

Grundlagen des Temporalen Differenzlernens

Einführung in das Reinforcement Learning (Verstärkungslernen)

Reinforcement Learning (RL), oder Verstärkungslernen, ist ein Bereich des maschinellen Lernens, in dem ein Agent lernt, wie er sich in einer Umgebung verhalten soll, um eine bestimmte Belohnung zu maximieren. Der Agent trifft Entscheidungen, führt Aktionen aus und erhält daraufhin Rückmeldungen in Form von Belohnungen oder Strafen. Diese Rückmeldungen dienen dazu, die Strategie des Agenten – seine Politik – schrittweise zu verbessern. Das Ziel ist es, eine optimale Politik zu finden, die den kumulierten zukünftigen Belohnungen maximiert. Verstärkungslernen unterscheidet sich von anderen maschinellen Lernansätzen durch seine Fokussierung auf die Entscheidungsfindung unter Unsicherheit und die direkte Interaktion mit der Umgebung.

Der TD-Lernalgorithmus: Ein Überblick

Der Temporale Differenz (TD) Lernalgorithmus ist eine Kernmethode des Reinforcement Learnings, die es ermöglicht, Vorhersagen über zukünftige Belohnungen zu verbessern. Im Gegensatz zu anderen Lernmethoden, die eine explizite Kenntnis des Umweltmodells erfordern, kann der TD-Lernalgorithmus aus der Erfahrung lernen, indem er die Differenz (den “Fehler”) zwischen aufeinanderfolgenden Werteschätzungen nutzt. Diese Methode ermöglicht es dem Agenten, seine Vorhersagen direkt und kontinuierlich anzupassen, basierend auf dem, was er durch Interaktion mit der Umgebung lernt.

Mathematische Grundlagen des TD-Lernens

Die mathematische Grundlage des TD-Lernens baut auf der Bellman-Gleichung auf und nutzt den TD-Fehler zur Aktualisierung der Werteschätzungen.

  • Die Bellman-Gleichung als Basis: Die Bellman-Gleichung ist eine fundamentale Gleichung im Bereich des dynamischen Programmierens und des Verstärkungslernens. Sie beschreibt die Beziehung zwischen dem aktuellen Wert eines Zustands und den Werten der folgenden Zustände. Die Gleichung stellt sicher, dass die Wertefunktion konsistent mit den Belohnungen und der Politik des Agenten ist.
  • Formulierung des TD-Fehlers: Der TD-Fehler ist ein Maß für die Differenz zwischen den prognostizierten und den tatsächlich erhaltenen Belohnungen plus dem Wert des folgenden Zustands, diskontiert mit dem Faktor \(\gamma\). Er wird mathematisch formuliert als \(TD(t) = R_{t+1} + \gamma V(S_{t+1}) – V(S_t)\). Dieser Fehler gibt an, wie gut die Werteschätzung eines Zustands im Vergleich zur tatsächlichen Belohnung und der Schätzung des nächsten Zustands war.
  • Bedeutung des Diskontierungsfaktors \(\gamma\): Der Diskontierungsfaktor \(\gamma\) spielt eine wesentliche Rolle im Rahmen des TD-Lernens. Er bestimmt, wie stark zukünftige Belohnungen im Vergleich zu sofortigen Belohnungen gewichtet werden. Ein niedriger Wert von \(\gamma\) bedeutet, dass zukünftige Belohnungen weniger stark gewichtet werden, was den Agenten kurzfristiger agieren lässt. Ein hoher Wert hingegen lässt den Agenten langfristige Auswirkungen seiner Aktionen stärker berücksichtigen. Der Diskontierungsfaktor hilft somit, die Balance zwischen kurzfristiger und langfristiger Planung zu steuern.

Diese mathematischen Konzepte bilden das Fundament des TD-Lernens und ermöglichen es, dass Algorithmen des Verstärkungslernens effektiv in einer Vielzahl von Umgebungen angewendet werden können.

Varianten des TD-Lernens

TD(0): Der einfachste TD-Lernalgorithmus

TD(0) ist die grundlegendste Form des Temporalen Differenzlernens. In diesem Ansatz wird der Wert eines Zustands basierend auf der nächsten unmittelbaren Belohnung und dem Wert des nachfolgenden Zustands aktualisiert, ohne dabei zukünftige Belohnungen über diesen nächsten Schritt hinaus zu berücksichtigen. Die Aktualisierung der Werteschätzung erfolgt nach der Formel:

\(V(S_t) \leftarrow V(S_t) + \alpha \left[ R_{t+1} + \gamma V(S_{t+1}) – V(S_t) \right]
\)

Hierbei ist \(\alpha\) die Lernrate, die bestimmt, wie stark die Aktualisierungen in jedem Schritt sind. TD(0) konzentriert sich ausschließlich auf die unmittelbar folgende Belohnung und den direkt nachfolgenden Zustand, was eine einfache, aber effektive Methode darstellt, um die Politik eines Agenten zu verbessern.

TD(\(\lambda\)): Eine Generalisierung des TD-Lernens

TD(\(\lambda\)) erweitert den TD(0)-Ansatz durch die Einführung des Eligibility Traces (Berechtigungsspuren), wodurch Informationen über vorherige Zustände und Belohnungen in die Aktualisierung der Werteschätzungen einbezogen werden können. Dies ermöglicht es, den Einfluss von Zuständen und Belohnungen zu berücksichtigen, die mehrere Schritte zurückliegen. Die grundlegende Aktualisierungsformel für TD(\(\lambda\)) lautet:

\(TD_{\lambda}(t) = (1-\lambda) \sum_{n=1}^{\infty} \lambda^{n-1} TD(t+n)
\)

Hierbei repräsentiert \(\lambda\) den Zerfallsfaktor der Berechtigungsspuren, der bestimmt, wie schnell der Einfluss früherer Zustände und Belohnungen mit der Zeit abnimmt. Ein \(\lambda\) nahe 0 ähnelt dem TD(0)-Ansatz, wobei hauptsächlich der unmittelbar nächste Zustand berücksichtigt wird, während ein \(\lambda\) nahe 1 die Auswirkungen einer langen Sequenz von Ereignissen stärker gewichtet.

Unterschiede und Anwendungsfälle von TD(0) und TD(\(\lambda\))

Die Hauptunterschiede zwischen TD(0) und TD(\(\lambda\)) liegen in ihrer Fähigkeit, Informationen über die Zustands- und Belohnungssequenz zu berücksichtigen. TD(0) ist einfacher und schneller, da es nur die unmittelbar folgende Belohnung und den nächsten Zustand in die Berechnung einbezieht. Dies macht TD(0) besonders geeignet für Situationen, in denen schnelle Entscheidungen gefragt sind und die Umgebung relativ einfach strukturiert ist.

TD(\(\lambda\)) hingegen bietet durch die Verwendung von Eligibility Traces eine flexiblere und oft effektivere Methode, um komplexe Abhängigkeiten und langfristige Auswirkungen von Aktionen zu berücksichtigen. Dieser Ansatz eignet sich besonders für komplexe Umgebungen, in denen Entscheidungen weitreichende und lang anhaltende Konsequenzen haben können. TD(\(\lambda\)) wird oft in anspruchsvolleren Lernszenarien eingesetzt, wie beispielsweise in fortgeschrittenen Spielsimulationen, komplexen Robotik-Anwendungen oder bei der Optimierung von Investitionsstrategien.

Zusammenfassend bieten sowohl TD(0) als auch TD(\(\lambda\)) wichtige Werkzeuge im Arsenal des Verstärkungslernens, wobei die Auswahl der geeigneten Methode stark von den spezifischen Anforderungen und der Komplexität der Lernaufgabe abhängt.

Anwendungsbeispiele und Fallstudien

Fallstudien zum Einsatz von TD-Lernen in Spielen (z.B. Schach, Go)

Im Bereich der Spiele hat das TD-Lernen bemerkenswerte Erfolge erzielt, insbesondere in komplexen Brettspielen wie Schach und Go. Ein prominentes Beispiel ist das Programm AlphaGo von DeepMind, das TD-Lernmethoden nutzte, um menschliche Weltmeister im Go zu besiegen. AlphaGo kombinierte tiefes neuronales Netzwerktraining mit TD-Lernalgorithmen, um nicht nur aus menschlichen Partien zu lernen, sondern auch durch Selbstspiel seine Strategien kontinuierlich zu verbessern. Der Erfolg von AlphaGo demonstrierte die Fähigkeit des TD-Lernens, komplexe strategische Entscheidungen in Umgebungen mit hoher Unsicherheit und einer enormen Anzahl von möglichen Zügen zu meistern.

Anwendung von TD-Lernen in der Robotik

In der Robotik ermöglicht das TD-Lernen Maschinen, durch Interaktion mit ihrer Umgebung autonom zu lernen. Ein Beispiel hierfür ist das Erlernen von Gehbewegungen bei zweibeinigen Robotern. Durch TD-Lernen können Roboter schrittweise ihre Gangart optimieren, indem sie nach jedem Schritt Feedback erhalten und ihre Bewegungsstrategie entsprechend anpassen. Diese Methode hat den Vorteil, dass sie ohne vorherige detaillierte Programmierung auskommt und stattdessen auf direktem Feedback aus der realen Welt basiert, was zu effizienteren und natürlicheren Bewegungen führt.

TD-Lernen in der Finanzmodellierung

TD-Lernen findet auch in der Finanzwelt Anwendung, insbesondere bei der Modellierung und Prognose von Marktpreisen. Durch die Analyse historischer Daten können TD-basierte Modelle Muster erkennen und zukünftige Preisbewegungen vorhersagen. Ein Anwendungsfall ist das algorithmische Handeln, bei dem TD-Lernalgorithmen dazu verwendet werden, Kauf- oder Verkaufssignale basierend auf der erwarteten zukünftigen Preisentwicklung zu generieren. Diese Methoden können dazu beitragen, die Effizienz des Handels zu steigern und gleichzeitig das Risiko zu minimieren, indem sie auf dynamische Weise auf Marktveränderungen reagieren.

Diese Beispiele illustrieren die Vielseitigkeit und Wirksamkeit von TD-Lernmethoden in verschiedenen Domänen. Von der Verbesserung künstlicher Intelligenz in Spielen über die Ermöglichung autonomer Bewegungen in der Robotik bis hin zur Vorhersage finanzieller Trends bietet das TD-Lernen leistungsstarke Werkzeuge, die in der Lage sind, komplexe Probleme zu lösen und die Effizienz und Effektivität in zahlreichen Anwendungsfällen zu steigern.

Herausforderungen und Kritik

Die Herausforderung der Wahl geeigneter Parameter

Eine der größten Herausforderungen im Zusammenhang mit dem TD-Lernen ist die Wahl geeigneter Parameter, einschließlich der Lernrate \(\alpha\), des Diskontierungsfaktors \(\gamma\) und des Traces-Zerfallsfaktors \(\lambda\) bei der Anwendung von TD(\(\lambda\)). Die Lernrate bestimmt, wie schnell das Modell von neuen Daten lernt, während der Diskontierungsfaktor den Wert zukünftiger Belohnungen beeinflusst. Der \(\lambda\)-Parameter steuert die Balance zwischen sofortigem und verzögertem Lernen. Die optimale Einstellung dieser Parameter ist entscheidend für die Leistungsfähigkeit des TD-Lernalgorithmus, kann jedoch schwierig sein, da sie stark von der spezifischen Umgebung und Aufgabe abhängt. Eine falsche Wahl kann zu langsamer Konvergenz oder sogar zur Divergenz des Lernprozesses führen.

Overfitting und seine Auswirkungen auf das TD-Lernen

Overfitting ist ein weiteres kritisches Problem, das auftritt, wenn ein Lernmodell zu stark an die spezifischen Eigenschaften der Trainingsdaten angepasst wird und dadurch seine Generalisierungsfähigkeit auf neue, unbekannte Daten verliert. Im Kontext des TD-Lernens kann Overfitting dazu führen, dass ein Agent Strategien lernt, die in der Trainingsumgebung gut funktionieren, aber nicht auf ähnliche Situationen oder leicht veränderte Umgebungen übertragbar sind. Dies schränkt die praktische Anwendbarkeit des gelernten Modells ein und kann die Effizienz des Lernprozesses beeinträchtigen. Die Bekämpfung von Overfitting erfordert sorgfältige Methoden wie die Anwendung von Regularisierungstechniken oder die Nutzung einer diversifizierten Menge von Trainingsdaten.

Kritische Bewertung der Effektivität von TD-Lernalgorithmen

Obwohl TD-Lernalgorithmen in vielen Anwendungsfällen erfolgreich eingesetzt wurden, gibt es auch Kritik an ihrer Effektivität und Zuverlässigkeit. Einige Forscher weisen darauf hin, dass TD-Lernen in Umgebungen mit hoher Varianz oder in Situationen, in denen die Modellierung der Umgebung ungenau ist, weniger effektiv sein kann. Darüber hinaus kann die Abhängigkeit von der korrekten Wahl der Parameter und die Anfälligkeit für Overfitting die Anwendung dieser Algorithmen in der Praxis erschweren. Trotz dieser Herausforderungen bleibt TD-Lernen ein mächtiges Werkzeug im Bereich des maschinellen Lernens, wobei laufende Forschungsbemühungen darauf abzielen, diese Probleme zu überwinden und die Methoden weiter zu verfeinern.

Zusammenfassend lässt sich sagen, dass das TD-Lernen trotz seiner beeindruckenden Erfolge in verschiedenen Domänen auch mit Herausforderungen und Kritikpunkten konfrontiert ist. Die Bewältigung dieser Herausforderungen erfordert kontinuierliche Forschung und Entwicklung, um die Methoden zu verbessern, ihre Anwendbarkeit zu erweitern und ihre Effektivität in einer breiteren Palette von Umgebungen sicherzustellen.

Zukünftige Perspektiven

Aktuelle Forschungstrends im Bereich des TD-Lernens

Die Forschung im Bereich des Temporalen Differenzlernens (TD-Lernen) entwickelt sich ständig weiter, mit dem Ziel, die Effizienz, Genauigkeit und Anwendbarkeit dieser Algorithmen zu verbessern. Ein aktueller Trend ist die Integration von Deep Learning Techniken, die es ermöglicht, TD-Lernalgorithmen auf Probleme mit hochdimensionalen Eingabedaten anzuwenden. Dadurch wird die Anwendung von TD-Lernen in komplexeren Umgebungen möglich, wie z.B. in der Bild- und Sprachverarbeitung. Ein weiterer Forschungsschwerpunkt liegt in der Entwicklung von Algorithmen, die besser mit der Varianz in den Rückmeldungen umgehen können, um die Stabilität und Zuverlässigkeit des Lernprozesses zu erhöhen.

Potenzielle neue Anwendungsfelder für TD-Algorithmen

Mit der fortschreitenden Entwicklung der TD-Lernalgorithmen eröffnen sich auch neue Anwendungsfelder. Eines der vielversprechenden Gebiete ist die personalisierte Medizin, wo TD-Lernen dazu beitragen könnte, individuelle Behandlungspläne basierend auf dem bisherigen Verlauf und der Reaktion des Patienten zu optimieren. Ein weiteres potentielles Anwendungsfeld ist die nachhaltige Energiegewinnung, bei der TD-Algorithmen zur Optimierung von Smart Grids und zur effizienteren Verteilung von Ressourcen eingesetzt werden könnten. Zudem könnte die fortschreitende Integration von TD-Lernmethoden in autonome Fahrzeuge dazu beitragen, die Entscheidungsfindung in komplexen und unvorhersehbaren Verkehrssituationen zu verbessern.

Die Rolle künstlicher Intelligenz in der Weiterentwicklung des TD-Lernens

Künstliche Intelligenz (KI) spielt eine zentrale Rolle in der Weiterentwicklung des TD-Lernens. Durch die Kombination von TD-Lernalgorithmen mit fortschrittlichen KI-Technologien, wie Deep Learning und neuronale Netzwerke, entstehen leistungsfähige Modelle, die in der Lage sind, aus einer Vielzahl von Erfahrungen zu lernen und komplexe Muster in den Daten zu erkennen. Diese Entwicklung ermöglicht nicht nur eine bessere Generalisierung über unterschiedliche Aufgaben und Umgebungen hinweg, sondern eröffnet auch die Möglichkeit, TD-Lernverfahren in bisher unerreichten Skalen und Komplexitätsgraden anzuwenden. Die fortschreitende Forschung in diesem Bereich verspricht, die Grenzen dessen, was mit TD-Lernen möglich ist, kontinuierlich zu erweitern und neue Durchbrüche in der Anwendung künstlicher Intelligenz zu ermöglichen.

Zusammenfassend stehen wir an einem spannenden Punkt in der Entwicklung des TD-Lernens, mit vielversprechenden Forschungstrends, neuen Anwendungsfeldern und der stetigen Integration in die breitere Landschaft der künstlichen Intelligenz. Die zukünftige Forschung und Innovation in diesem Bereich wird zweifellos weiterhin bedeutende Beiträge zur Lösung komplexer Probleme in Wissenschaft und Industrie leisten.

Zusammenfassung

Wiederholung der Schlüsselkonzepte und Haupterkenntnisse

Das Temporale Differenzlernen (TD-Lernen) stellt einen fundamentalen Ansatz im Bereich des maschinellen Lernens dar, insbesondere innerhalb des Verstärkungslernens. Der TD-Fehler, der die Differenz zwischen prognostizierten und tatsächlich erhaltenen Belohnungen misst, ist zentral für die Aktualisierung und Verbesserung der Politik eines lernenden Agenten. Durch den Einsatz von Algorithmen wie TD(0) und TD(\(\lambda\)) können Modelle effektiv aus direkter Interaktion mit ihrer Umgebung lernen, ohne die Notwendigkeit eines vollständig bekannten Modells der Umwelt.

Die Anwendungsbereiche des TD-Lernens sind vielfältig und reichen von der Optimierung künstlicher Intelligenzen in Spielen über Anwendungen in der Robotik bis hin zur Finanzmodellierung. Trotz seiner breiten Anwendbarkeit steht das TD-Lernen vor Herausforderungen wie der Wahl geeigneter Parameter, der Gefahr von Overfitting und der Notwendigkeit, seine Effektivität in komplexen oder stark variierenden Umgebungen kontinuierlich zu bewerten und zu verbessern.

Abschließende Bewertung der Bedeutung des TD-Fehlers im Kontext des maschinellen Lernens

Der TD-Fehler spielt eine entscheidende Rolle im Kontext des maschinellen Lernens, da er es Agenten ermöglicht, aus Erfahrung zu lernen und ihre Entscheidungsfindung über die Zeit zu optimieren. Die Fähigkeit, ohne vollständiges Vorwissen über die Umwelt handeln und lernen zu können, macht TD-Lernalgorithmen besonders wertvoll für eine breite Palette von Anwendungen, in denen die Dynamik der Umgebung komplex und schwer vorherzusagen ist.

Die fortlaufende Forschung und Entwicklung im Bereich des TD-Lernens, insbesondere durch die Integration mit fortgeschrittenen KI-Technologien, verspricht, die Grenzen dessen, was mit diesen Algorithmen erreicht werden kann, weiter zu verschieben. Die zukünftigen Durchbrüche in diesem Bereich werden voraussichtlich nicht nur die Effektivität und Effizienz von TD-Lernalgorithmen verbessern, sondern auch neue Anwendungsmöglichkeiten in bislang unerschlossenen Bereichen eröffnen.

Insgesamt ist der TD-Fehler ein Schlüsselelement, das tiefe Einblicke in die Funktionsweise des Verstärkungslernens bietet und dessen Verständnis für die Entwicklung leistungsfähiger, adaptiver Lernsysteme unerlässlich ist. Seine Bedeutung im maschinellen Lernen wird durch die kontinuierlichen Fortschritte in der Forschung und die wachsende Anzahl erfolgreicher Anwendungen eindrucksvoll unterstrichen.

Mit freundlichen Grüßen
J.O. Schneppat


Referenzen

Akademische Zeitschriften und Artikel

  • Sutton, R.S. & Barto, A.G. (1988). “Learning to predict by the methods of temporal differences“. Machine Learning, 3(1), 9-44.
  • Watkins, C.J.C.H. & Dayan, P. (1992). “Q-learning“. Machine Learning, 8(3-4), 279-292.
  • Mnih, V. et al. (2015). “Human-level control through deep reinforcement learning“. Nature, 518(7540), 529-533.

Bücher und Monografien

  • Sutton, R.S. & Barto, A.G. (2018). “Reinforcement Learning: An Introduction“. MIT Press.
  • Szepesvári, C. (2010). “Algorithms for Reinforcement Learning“. Morgan & Claypool Publishers.

Online-Ressourcen und Datenbanken

Anhänge

Glossar der Begriffe

  • TD-Fehler (Temporaler Differenzfehler): Die Differenz zwischen der prognostizierten Belohnung und der tatsächlich erhaltenen Belohnung plus dem Wert des nächsten Zustands, angepasst um den Diskontierungsfaktor.
  • Verstärkungslernen (Reinforcement Learning): Ein Bereich des maschinellen Lernens, in dem ein Agent lernt, wie er handeln soll, um die kumulierte Belohnung in einer Umgebung zu maximieren.
  • Diskontierungsfaktor (\(\gamma\)): Ein Parameter im Bereich des Verstärkungslernens, der bestimmt, wie zukünftige Belohnungen im Vergleich zu unmittelbaren Belohnungen gewichtet werden.

Zusätzliche Ressourcen und Leseempfehlungen

  • Online-Kurse:
  • Wissenschaftliche Arbeiten:
    • Lillicrap, T.P. et al. (2015). “Continuous control with deep reinforcement learning“. arXiv:1509.02971.
    • Haarnoja, T. et al. (2018). “Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor“. arXiv:1801.01290.
  • Bücher:
    • Deep Reinforcement Learning Hands-On” von Maxim Lapan. Ein praktischer Leitfaden zur Implementierung von fortgeschrittenen RL-Algorithmen mit PyTorch.

Share this post