Verstärkungslernen

Verstärkungslernen (Rl) ist ein Bereich von maschinelles Lernen besorgt mit wie intelligente Agenten sollte nehmen Aktionen in einer Umgebung, um den Begriff der kumulativen Belohnung zu maximieren. Das Verstärkungslernen ist neben drei grundlegenden Paradigmen für maschinelles Lernen zusammen mit überwachtes Lernen und unbeaufsichtigtes Lernen.

Das Verstärkungslernen unterscheidet sich vom überwachten Lernen, wenn keine markierten Eingangs-/Ausgangspaare vorgestellt werden müssen, und dass keine suboptimalen Aktionen erforderlich sind, um explizit zu korrigieren. Stattdessen liegt der Fokus darauf, ein Gleichgewicht zwischen Erkundung (von Uncharted Territory) und Ausbeutung (des aktuellen Wissens) zu finden.[1] Teilweise beaufsichtigte RL -Algorithmen können die Vorteile von überwachten und RL -Algorithmen kombinieren.[2]

Die Umgebung wird typischerweise in Form von a angegeben Markov -Entscheidungsprozess (MDP), weil viele Verstärkungslernalgorithmen für diesen Kontext verwenden Dynamische Programmierung Techniken.[3] Der Hauptunterschied zwischen den klassischen dynamischen Programmiermethoden und der Verstärkungslernen -Algorithmen besteht darin, dass letztere keine Kenntnis eines exakten mathematischen Modells des MDP annehmen und auf große MDPs abzielen, bei denen genaue Methoden nicht realisierbar werden.

Einführung

Das typische Rahmen eines RL -Szenarios (Verstärkung Learning): Ein Agent nimmt Maßnahmen in einer Umgebung aus, die in eine Belohnung und eine Darstellung des Staates interpretiert wird, die in den Agenten zurückgeführt werden.

Aufgrund seiner Allgemeinheit wird das Verstärkungslernen in vielen Disziplinen untersucht, wie z. Spieltheorie, Kontrolltheorie, Unternehmensforschung, Informationstheorie, Simulationsbasierte Optimierung, Multi-Agent-Systeme, Schwarmintelligenz, und Statistiken. In der Operations -Forschungs- und Kontrollliteratur wird das Verstärkungslernen genannt ungefähre dynamische Programmierung, oder Neuro-dynamische Programmierung. Die Probleme des Interesses am Verstärkungslernen wurden auch in der untersucht Theorie der optimalen Kontrolle, was sich hauptsächlich mit der Existenz und Charakterisierung optimaler Lösungen und Algorithmen für ihre genaue Berechnung befasst, und weniger mit Lernen oder Annäherung, insbesondere in Abwesenheit eines mathematischen Modells der Umwelt. Im Wirtschaft und SpieltheorieDas Verstärkungslernen kann verwendet werden, um zu erklären, wie das Gleichgewicht ergeben kann begrenzte Rationalität.

Grundlegendes Verstärkungslernen wird als modelliert als Markov Entscheidungsprozess (MDP):

  • eine Reihe von Umwelt- und Agentenstaaten, S;
  • eine Reihe von Aktionen, Ades Agenten;
  • ist die Übergangswahrscheinlichkeit (zum Zeitpunkt ) aus dem Staat zu sagen unter handeln .
  • ist die sofortige Belohnung nach dem Übergang von zu mit Aktion .

Der Zweck des Verstärkungslernens besteht darin, dass der Agent eine optimale oder nahezu optimale Richtlinie lernt, die die "Belohnungsfunktion" oder ein anderes vom Benutzer bereitgestellter Verstärkungssignal maximiert, das sich aus den unmittelbaren Belohnungen ansammelt. Dies ähnelt den Prozessen, die in der Tierpsychologie auftreten. Zum Beispiel sind biologische Gehirne fest verdrahtet, um Signale wie Schmerz und Hunger als negative Verstärkung zu interpretieren und die Aufnahme von Vergnügen und Nahrung als positive Verstärkung zu interpretieren. Unter bestimmten Umständen können Tiere lernen, sich an Verhaltensweisen zu beteiligen, die diese Belohnungen optimieren. Dies deutet darauf hin, dass Tiere in der Lage sind, das Lernen zu verstärken.[4][5]

Ein grundlegender Verstärkungslernagent -Agent ist in diskreten Zeitschritten mit seiner Umgebung interagiert. Zu jedem Mal t, der Agent erhält den aktuellen Zustand und Belohnung . Es wählt dann eine Aktion aus aus den verfügbaren Aktionen, die anschließend an die Umgebung gesendet werden. Die Umwelt bewegt sich in einen neuen Staat und die Belohnung in Verbindung mit Überleitung festgestellt wird. Das Ziel eines Verstärkungslernagenten ist es, a zu lernen Politik: , was die erwartete kumulative Belohnung maximiert.

Die Formulierung des Problems als MDP geht davon aus, dass der Agent den aktuellen Umgebungszustand direkt beobachtet. In diesem Fall soll das Problem haben volle Beobachtbarkeit. Wenn der Agent nur Zugang zu einer Teilmenge von Zuständen hat oder wenn die beobachteten Zustände durch Lärm korrupt sind, soll der Agent bezeichnet werden teilweise Beobachtbarkeitund formell muss das Problem als formuliert werden Teilweise beobachtbarer Markov -Entscheidungsprozess. In beiden Fällen kann die für den Agenten verfügbare Aktionen eingeschränkt werden. Zum Beispiel könnte der Zustand eines Kontostands auf positiv beschränkt werden. Wenn der aktuelle Wert des Staates 3 beträgt und der Statusübergang versucht, den Wert um 4 zu verringern, ist der Übergang nicht zulässig.

Wenn die Leistung des Agenten mit der eines Agenten verglichen wird, der optimal wirkt, führt der Leistungsunterschied zu dem Begriff von Reue. Um optimal zu handeln, muss der Agent über die langfristigen Konsequenzen seiner Handlungen (d. H. Maximieren Sie das zukünftige Einkommen), obwohl die damit verbundene sofortige Belohnung negativ sein könnte.

Daher ist das Verstärkungslernen besonders gut für Probleme geeignet, die einen langfristigen Kompromiss für kurzfristige Belohnungen umfassen. Es wurde erfolgreich auf verschiedene Probleme angewendet, einschließlich Roboterkontrolle,[6] Aufzugsplanung, Telekommunikation, Backgammon, Dame[7] und gehen (Alphago).

Zwei Elemente machen Verstärkungslernen leistungsfähig: Die Verwendung von Proben zur Optimierung der Leistung und die Verwendung von Funktionsnäherung für große Umgebungen. Dank dieser beiden Schlüsselkomponenten kann das Verstärkungslernen in großen Umgebungen in den folgenden Situationen verwendet werden:

  • Ein Modell der Umgebung ist bekannt, aber ein Analytische Lösung ist nicht verfügbar;
  • Es wird nur ein Simulationsmodell der Umgebung angegeben (das Thema von Simulationsbasierte Optimierung);[8]
  • Die einzige Möglichkeit, Informationen über die Umgebung zu sammeln, besteht darin, mit ihr zu interagieren.

Die ersten beiden dieser Probleme könnten als Planungsprobleme in Betracht gezogen werden (da irgendeine Form des Modells verfügbar ist), während der letzte als echtes Lernproblem angesehen werden könnte. Das Verstärkungslernen wandelt jedoch beide Planungsprobleme in die maschinelles Lernen Probleme.

Erkundung

Die Exploration vs. Exploitation-Kompromisse wurde am gründlichsten durch die untersucht Mehr bewaffneter Bandit Problem und für Finite -State -Raum -MDPs in Burnetas und Katehakis (1997).[9]

Das Verstärkungslernen erfordert clevere Erkundungsmechanismen. Die zufällig ausgewählte Auswahl von Aktionen ohne Bezugnahme auf eine geschätzte Wahrscheinlichkeitsverteilung zeigt eine schlechte Leistung. Der Fall von (kleinen) endlichen MDPs ist relativ gut verstanden. Aufgrund des Mangels an Algorithmen, die sich gut mit der Anzahl der Zustände (oder der Skala zu Problemen mit unendlichen Zustandsräumen) skalieren, sind einfache Erkundungsmethoden die praktischsten.

Eine solche Methode ist -Greedy, wo ist ein Parameter, der die Explorationsmenge im Vergleich zu Nutzung steuert. Mit Wahrscheinlichkeit Es wird eine Ausbeutung ausgewählt, und der Agent wählt die Aktion, von der er glaubt, dass sie den besten langfristigen Effekt hat (die Verbindungen zwischen Aktionen werden zufällig einheitlich unterbrochen). Alternativ mit Wahrscheinlichkeit Es wird die Erkundung ausgewählt und die Aktion gleichmäßig zufällig ausgewählt. ist normalerweise ein fester Parameter, kann aber entweder gemäß einem Zeitplan angepasst werden (was den Agenten zunehmend weniger erforscht) oder anpassungsfähig auf der Grundlage von Heuristiken.[10]

Algorithmen für das Kontrolle von Kontrolle

Selbst wenn das Problem der Exploration nicht berücksichtigt wird und selbst wenn der Staat beobachtbar war (im Folgenden angenommen), bleibt das Problem weiterhin, um herauszufinden, welche Maßnahmen zu höheren kumulativen Belohnungen führen.

Kriterium der Optimalität

Politik

Die Aktionsauswahl des Agenten wird als Karte namens modelliert Politik:

Die Richtlinienkarte gibt die Wahrscheinlichkeit, Maßnahmen zu ergreifen wenn im Zustand .[11]: 61 Es gibt auch deterministische Richtlinien.

Zustandswertfunktion

Die Wertfunktion ist definiert als die erwartete Rückkehr Beginnend mit Staat , d.h. und nacheinander die Politik folgen . Grob gesagt schätzt die Wertfunktion "Wie gut", in einem bestimmten Zustand zu sein.[11]: 60

wo die zufällige Variable bezeichnet die Rückkehrund ist definiert als die Summe der zukünftigen reduzierten Belohnungen:

wo ist die Belohnung im Schritt , ist der Diskontsatz. Gamma ist weniger als 1, daher werden Ereignisse in der fernen Zukunft in unmittelbarer Zukunft weniger gewichtet als Ereignisse.

Der Algorithmus muss eine Richtlinie mit maximaler erwarteter Rendite finden. Aus der Theorie der MDPs ist bekannt, dass die Suche ohne Verlust der Allgemeinheit auf den Satz von sogenannten Einrichtungen beschränkt werden kann stationär Richtlinien. Eine Richtlinie ist stationär Wenn die von IT zurückgegebene Aktionsverteilung nur vom letzten besuchten Staat abhängt (von der Anamnese des Beobachtungsagenten). Die Suche kann weiter beschränkt werden deterministisch Stationäre Richtlinien. EIN deterministisch stationär Die Richtlinie wählt die auf dem aktuellen Status basierende Aktionen bestimmt. Da eine solche Richtlinie mit einer Zuordnung von den Staaten zu den Aktionen identifiziert werden kann, können diese Richtlinien mit solchen Zuordnungen ohne Verlust der Allgemeinheit identifiziert werden.

Rohe Gewalt

Das rohe Gewalt Ansatz beinhaltet zwei Schritte:

  • Für jede mögliche Richtlinie kehrt die Stichprobe zurück, während sie folgen
  • Wählen Sie die Richtlinie mit der größten erwarteten Rendite

Ein Problem dabei ist, dass die Anzahl der Richtlinien groß oder sogar unendlich sein kann. Eine andere ist, dass die Varianz der Renditen groß sein kann, wodurch viele Stichproben die Rückgabe jeder Richtlinie genau abschätzen müssen.

Diese Probleme können verbessert werden, wenn wir eine gewisse Struktur annehmen und Proben aus einer Richtlinie ermöglichen, um die Schätzungen für andere zu beeinflussen. Die beiden Hauptansätze, um dies zu erreichen Wertungsfunktionsschätzung und Direkte Richtliniensuche.

Wertfunktion

Wertfunktionsansätze versuchen, eine Richtlinie zu finden, die die Rendite maximiert, indem eine Reihe von Schätzungen der erwarteten Renditen für eine Richtlinie (normalerweise entweder "aktuell" [On-Policy] oder die optimale [Off-Policy]) beibehalten werden.

Diese Methoden stützen sich auf die Theorie von Markov-Entscheidungsprozessen, bei denen die Optimalität in gewissem Sinne definiert ist irgendein Der Anfangszustand (d. H. Erstverteilungen spielen in dieser Definition keine Rolle). Auch hier kann immer eine optimale Politik unter stationären Richtlinien gefunden werden.

Optimalität formell zu definieren, den Wert einer Richtlinie zu definieren durch

wo steht für die Rückkehr, die mit folgendem zugeordnet ist aus dem Anfangszustand . Definition als maximal möglicher Wert von , wo darf sich ändern,

Eine Richtlinie, die diese optimalen Werte in jedem Zustand erreicht optimal. Eine Politik, die in diesem starken Sinne optimal ist , seit , wo ist ein Zustand, der zufällig aus der Verteilung abgetastet wurde von Anfangszuständen (also ).

Obwohl staatliche Werte ausreichen, um die Optimalität zu definieren, ist es nützlich, Aktionswerte zu definieren. Einen Staat gegeben , eine Handlung und eine Politik , der Aktionswert des Paares unter wird definiert von

wo steht nun für die zufällige Rendite, die mit dem ersten Maßnahme um Maßnahmen verbunden ist im Zustand und folgen , danach.

Die Theorie von MDPs gibt an, dass wenn ist eine optimale Richtlinie, wir handeln optimal (ergreifen die optimale Maßnahmen), indem wir die Aktion aus auswählen mit dem höchsten Wert bei jedem Zustand,, . Das Aktionswertfunktion einer solch optimalen Politik () wird das genannt Optimale Aktionswertfunktion und wird allgemein bezeichnet durch . Zusammenfassend lässt sich sagen, dass die Kenntnis der optimalen Aktionswertfunktion allein ausreicht, um optimal zu handeln.

Unter der Annahme des MDP-Kenntnisses sind die beiden grundlegenden Ansätze zur Berechnung der optimalen Aktionswertfunktion Wert -Iteration und Richtlinien -Iteration. Beide Algorithmen berechnen eine Abfolge von Funktionen () {\ displayStyle k = 0,1,2, \ ldots}, die zu konvergieren . Das Berechnen dieser Funktionen beinhaltet die Berechnung der Erwartungen über den gesamten Zustandsraum, was für alle bis auf die kleinsten (endlichen) MDPs unpraktisch ist. Bei Verstärkungslernmethoden werden die Erwartungen durch Mittelung über Proben und die Verwendung von Funktionsnäherungstechniken angenähert, um die Notwendigkeit zu bewältigen, Wertfunktionen über große Zustandsbereiche darzustellen.

Monte -Carlo -Methoden

Monte -Carlo -Methoden Kann in einem Algorithmus verwendet werden, der die Richtlinien -Iteration nachahmt. Die politische Iteration besteht aus zwei Schritten: Richtlinienbewertung und Politikverbesserung.

Monte Carlo wird im Richtlinienbewertungsschritt verwendet. In diesem Schritt bei einer stationären, deterministischen Richtlinie Ziel ist es, die Funktionswerte zu berechnen (oder eine gute Annäherung an sie) für alle State-Action-Paare . Angenommen (zur Einfachheit), dass der MDP endlich ist, dass ausreichend Speicher zur Verfügung steht, um die Aktionswerte aufzunehmen, und dass das Problem episodisch ist und nach jeder Episode eine neue aus einem zufälligen Ausgangszustand startet. Dann die Schätzung des Wertes eines bestimmten Status-Action-Paares kann berechnet werden, indem die abgetasteten Renditen gemittelt werden, die stammten im Laufe der Zeit. Bei ausreichender Zeit kann dieses Verfahren somit eine genaue Schätzung erstellen der Aktionswertfunktion . Dadurch wird die Beschreibung des Richtlinienbewertungsschritts beendet.

Im Schritt der Richtlinienverbesserung wird die nächste Richtlinie durch Berechnung a erhalten gierig Politik in Bezug auf : Einen Staat gegeben Diese neue Richtlinie gibt eine Aktion zurück, die maximiert . In der Praxis faule Bewertung Kann die Berechnung der Maximierungsaktionen auf verschieben, wenn sie benötigt werden.

Zu den Problemen mit diesem Verfahren gehören:

1. Das Verfahren kann zu viel Zeit damit verbringen, eine suboptimale Richtlinie zu bewerten.

2. Es verwendet Proben ineffizient, da eine lange Flugbahn nur die Schätzung der Schätzung verbessert Single State-Action-Paar, das die Flugbahn begann.

3. Wenn die Rückgaben entlang der Flugbahnen haben hohe Varianz, Konvergenz ist langsam.

4. Es funktioniert in episodische Probleme nur.

5. Es funktioniert nur in kleinen, endlichen MDPs.

Zeitliche Differenzmethoden

Das erste Problem wird behoben, indem das Verfahren die Richtlinie (in einigen oder allen Zuständen) ändern kann, bevor sich die Werte regeln. Auch dies kann problematisch sein, da es Konvergenz verhindern kann. Die meisten aktuellen Algorithmen tun dies und führen zu der Klasse von Verallgemeinerte politische Iteration Algorithmen. Viele Schauspieler-Kritiker Methoden gehören zu dieser Kategorie.

Das zweite Problem kann korrigiert werden, indem Trajektorien zu jedem State-Action-Paar beitragen können. Dies kann auch in gewissem Maße beim dritten Problem helfen, obwohl eine bessere Lösung bei hoher Varianz von Sutton's ist zeitlicher Unterschied (TD) Methoden, die auf der rekursiven Basis basieren Bellman -Gleichung.[12][13] Die Berechnung in TD -Methoden kann inkrementell sein (wenn nach jedem Übergang der Speicher geändert und der Übergang weggeworfen wird) oder Stapel (wenn die Übergänge angegeben sind und die Schätzungen einmal basierend auf der Charge berechnet werden). Batch-Methoden wie die zeitliche Differenzmethode mit kleinster Quadrat,[14] Kann die Informationen in den Proben besser verwenden, während inkrementelle Methoden die einzige Wahl sind, wenn Stapelmethoden aufgrund ihrer hohen Rechen- oder Speicherkomplexität nicht realisierbar sind. Einige Methoden versuchen, die beiden Ansätze zu kombinieren. Methoden, die auf zeitlichen Unterschieden basieren, überwinden auch das vierte Problem.

Ein weiteres Problem, das für TD spezifisch ist, beruht auf der Abhängigkeit von der rekursiven Bellman -Gleichung. Die meisten TD-Methoden haben eine sogenannte Parameter Dies kann kontinuierlich zwischen Monte -Carlo -Methoden interpolieren, die sich nicht auf den Bellman -Gleichungen beruhen, und den grundlegenden TD -Methoden, die sich ausschließlich auf den Bellman -Gleichungen verlassen. Dies kann wirksam sein, um dieses Problem zu lindern.

Funktionsnäherungsmethoden

Um das fünfte Problem anzugehen, Funktionsnäherungsmethoden werden verwendet. Lineare Funktionsnäherung beginnt mit einem Mapping Das weist jedem Zustands-Aktionspaar einen endlichdimensionalen Vektor zu. Dann die Aktionswerte eines Zustands-Aktionspaars werden erhalten, indem die Komponenten linear kombiniert werden mit etwas Gewichte :

Die Algorithmen passen dann die Gewichte an, anstatt die mit den individuellen Zustandsaktionspaaren verbundenen Werte anzupassen. Methoden basierend auf Ideen von Nichtparametrische Statistiken (Es wurden gesehen, dass sie ihre eigenen Merkmale konstruieren) wurden untersucht.

Die Wert -Iteration kann auch als Ausgangspunkt verwendet werden, wodurch der entsteht Q-Learning Algorithmus und seine vielen Varianten.[15]

Das Problem bei der Verwendung von Aktionswerten besteht darin, dass sie möglicherweise sehr genaue Schätzungen der konkurrierenden Aktionswerte benötigen, die bei der Lautstärke schwer zu erzielen sind, obwohl dieses Problem durch zeitliche Differenzmethoden in gewissem Maße gemindert wird. Die Verwendung der sogenannten kompatiblen Funktionsnäherungsmethode beeinträchtigt die Allgemeinheit und Effizienz.

Direkte Richtliniensuche

Eine alternative Methode besteht darin, direkt in (eine Teilmenge von) im Richtlinienraum zu suchen. In diesem Fall wird das Problem zu einem Fall von Stochastische Optimierung. Die beiden verfügbaren Ansätze sind gradientenbasierte und gradientenfreie Methoden.

Gradient-basierte Methoden (Richtliniengradientenmethoden) Beginnen Sie mit einer Zuordnung von einem endlich-dimensionalen (Parameter-) Raum zum Richtlinienraum: gegebener Parametervektor , Lassen bezeichnen die mit der Richtlinie verbundene Richtlinie . Definieren der Leistungsfunktion durch

Unter leichten Bedingungen ist diese Funktion als Funktion des Parametervektors differenzierbar . Wenn der Gradient von war bekannt, man konnte gebrauchen Gradientenaufstieg. Da ein analytischer Ausdruck für den Gradienten nicht verfügbar ist, ist nur eine laute Schätzung verfügbar. Eine solche Schätzung kann in vielerlei Hinsicht konstruiert werden, was zu Algorithmen wie Williams 'Verstärkungsmethode führt[16] (die als die Wahrscheinlichkeitsverhältnis -Methode in der bekannt ist Simulationsbasierte Optimierung Literatur).[17] Richtliniensuchmethoden wurden in der verwendet Robotik Kontext.[18] Viele politische Suchmethoden können in lokaler Optima stecken bleiben (wie sie basieren auf lokale Suche).

Eine große Klasse von Methoden vermeidet es, sich auf Gradienteninformationen zu verlassen. Diese beinhalten simuliertes Glühen, Cross-Entropy-Suche oder Methoden von Evolutionsberechnung. Viele gradientenfreie Methoden können (theoretisch und in der Grenze) ein globales Optimum erreichen.

Richtliniensuchmethoden können langsam angegebene Daten konvergieren. Dies geschieht beispielsweise bei episodischen Problemen, wenn die Flugbahnen lang sind und die Varianz der Renditen groß ist. Wertfunktionsbasierte Methoden, die auf zeitliche Unterschiede beruhen, können in diesem Fall helfen. In den vergangenen Jahren, Schauspieler -kritische Methoden wurden bei verschiedenen Problemen gut vorgeschlagen und gut ausgeführt.[19]

Modellbasierte Algorithmen

Schließlich können alle oben genannten Methoden mit Algorithmen kombiniert werden, die zuerst ein Modell lernen. Zum Beispiel der Dyna -Algorithmus[20] Lernt ein Modell aus Erfahrung und verwendet, um zusätzlich zu den tatsächlichen Übergängen modelliertere Übergänge für eine Wertfunktion zu bieten. Solche Methoden können manchmal auf nicht parametrische Modelle ausgeweitet werden, z.[21] zum Lernalgorithmus.

Es gibt andere Möglichkeiten, Modelle zu verwenden, als eine Wertfunktion zu aktualisieren.[22] Zum Beispiel in Modellvorhersagekontrolle Das Modell wird verwendet, um das Verhalten direkt zu aktualisieren.

Theorie

Sowohl das asymptotische als auch die endliche Verhaltensweisen der meisten Algorithmen sind gut verstanden. Algorithmen mit nachweislich guter Online -Leistung (die sich mit dem Explorationsproblem befassen) sind bekannt.

In Burnetas und Katehakis (1997) wird eine effiziente Erforschung von MDPs angegeben.[9] Finite-Tite-Leistungsgrenzen sind auch für viele Algorithmen aufgetreten, aber es wird erwartet, dass diese Grenzen eher locker sind und daher mehr Arbeit erforderlich ist, um die relativen Vorteile und Einschränkungen besser zu verstehen.

Für inkrementelle Algorithmen wurden asymptotische Konvergenzprobleme beigelegt[Klarstellung erforderlich]. Temporal-differenzbasierte Algorithmen konvergieren unter einem breiteren Satz von Bedingungen als bisher möglich (z. B. bei der Verwendung mit willkürlicher, glatte Funktionsnäherung).

Forschung

Forschungsthemen umfassen

  • Adaptive Methoden, die unter einer großen Anzahl von Bedingungen mit weniger (oder NO) Parametern funktionieren
  • Behandeln des Explorationsproblems in großen MDPs
  • Kombinationen mit logischbasierten Frameworks[23]
  • Große empirische Bewertungen
  • Lernen und Handeln unter Teilinformationen (z. B. verwendet Prädiktivzustandsrepräsentation)
  • modulares und hierarchisches Verstärkungslernen[24]
  • Verbesserung der bestehenden Mehrwertfunktions- und Richtliniensuchmethoden
  • Algorithmen, die gut mit großen (oder kontinuierlichen) Aktionsräumen funktionieren
  • Transferlernen[25]
  • lebenslanges Lernen
  • effiziente probsbasierte Planung (z. B. basierend auf Monte Carlo Tree Search).
  • Fehlererkennung in Softwareprojekten[26]
  • Intrinsische Motivation Dies unterscheidet (typisch) das Verhalten von Informationssuchungen, Verhaltensweisen vom Typ Curiosity-Typ aus aufgabenabhängigen zielgerichteten Verhaltensweisen durch Einführung einer Belohnungsfunktion, die auf Maximierung neuer Informationen basiert[27][28][29]
  • Mehrfach oder verteiltes Verstärkungslernen ist ein Thema von Interesse. Anwendungen erweitern.[30]
  • Schauspieler-kritischer Verstärkung
  • Verstärkungslernenalgorithmen wie TD -Lernen werden als Modell für untersucht Dopamin-Lernen im Gehirn. In diesem Modell die Dopaminerge Projektionen aus dem Substantia Nigra zum Basalganglien Funktion als Vorhersagefehler.
  • Verstärkungslernen wurde als Teil des Modells für das Lernen menschlicher Fähigkeiten verwendet, insbesondere in Bezug auf die Interaktion zwischen implizitem und explizitem Lernen beim Erwerb von Fähigkeiten (die erste Veröffentlichung dieser Anwendung war 1995–1996).
  • Insassen-zentrierte Kontrolle
  • Algorithmischer Handel und optimale Ausführung[31]
  • Optimierung der Computerressourcen[32][33][34]

Vergleich von Verstärkungslernenalgorithmen

Algorithmus Beschreibung Politik Aktionsraum Zustandsraum Operator
Monte Carlo Jeder Besuch in Monte Carlo Entweder Diskret Diskret Probe-Means
Q-Learning Zustand -action -ard -State Außerordentlich Diskret Diskret Q-Wert
Sarsa Zustand -action -ard -state -action Ungenutzig Diskret Diskret Q-Wert
Q-Learning - Lambda State -action -Award -State mit Zulassungsspuren Außerordentlich Diskret Diskret Q-Wert
Sarsa - Lambda State -Action -Award -State -Action mit Berechtigungsspuren Ungenutzig Diskret Diskret Q-Wert
DQN Tiefes Q -Netzwerk Außerordentlich Diskret Kontinuierlich Q-Wert
DDPG Tiefe deterministische politische Gradienten Außerordentlich Kontinuierlich Kontinuierlich Q-Wert
A3c Asynchroner Vorteilsakteur-kritischer Algorithmus Ungenutzig Kontinuierlich Kontinuierlich Vorteil
Naf Q-Learning mit normalisierten Vorteilsfunktionen Außerordentlich Kontinuierlich Kontinuierlich Vorteil
Trpo Richtlinienoptimierung der Vertrauensregion Ungenutzig Kontinuierlich Kontinuierlich Vorteil
PPO Proximale Politikoptimierung Ungenutzig Kontinuierlich Kontinuierlich Vorteil
Td3 Zwilling verzögerte tiefe deterministische politische Gradient Außerordentlich Kontinuierlich Kontinuierlich Q-Wert
SACK Weicher Schauspielerkritiker Außerordentlich Kontinuierlich Kontinuierlich Vorteil

Assoziatives Verstärkungslernen

Assoziative Verstärkungslernaufgaben kombinieren Facetten stochastischer Lernautomatenaufgaben und überwachte Lernmusterklassifizierungsaufgaben. Bei assoziativen Lernaufgaben der Verstärkung interagiert das Lernsystem in einer geschlossenen Schleife mit seiner Umgebung.[35]

Tiefes Verstärkungslernen

Dieser Ansatz erweitert das Verstärkungslernen durch die Verwendung eines tiefen neuronalen Netzwerks und ohne explizit den staatlichen Raum.[36] Die Arbeit zum Erlernen von Atari -Spielen durch Google Deepmind verstärkte Aufmerksamkeit auf Tiefes Verstärkungslernen oder End-to-End-Verstärkungslernen.[37]

Kontroveres Lernen von tiefer Verstärkung

Das kontroverse Erlernen von Tiefverstärkung ist ein aktives Forschungsbereich in der Verstärkung, das sich auf Schwachstellen erlernter Richtlinien konzentriert. In diesem Forschungsgebiet zeigten einige Studien zunächst, dass die Richtlinien für Verstärkungslernen anfällig für nicht wahrnehmbare kontroverse Manipulationen sind.[38][39][40] Während einige Methoden vorgeschlagen wurden, um diese Anfälligkeiten zu überwinden, wurde in den jüngsten Studien gezeigt, dass diese vorgeschlagenen Lösungen weit davon entfernt sind, eine genaue Darstellung aktueller Schwachstellen für die Richtlinien für das Lernen von Verstärkung zu ermitteln.[41]

Fuzzy -Verstärkungslernen

Durch Einführung Fuzzy Inferenz in RL,[42] approximieren die Funktion der Status-Action-Wert mit Fuzzy -Regeln im kontinuierlichen Raum wird möglich. Die if - dann Form der Fuzzy -Regeln macht diesen Ansatz geeignet, um die Ergebnisse in einer Form der natürlichen Sprache auszudrücken. FRL mit Fuzzy -Regel -Interpolation erweitern [43] Ermöglicht die Verwendung von spärlichen Fuzzy-Regelbasen mit reduzierter Größe, um die Kardinalregeln (wichtigste Zustands-Action-Werte) zu betonen.

Inverse Verstärkungslernen

Beim Inverse -Verstärkungslernen (IRL) wird keine Belohnungsfunktion gegeben. Stattdessen wird die Belohnungsfunktion angesichts eines beobachteten Verhaltens eines Experten abgeleitet. Die Idee ist, das beobachtete Verhalten nachzuahmen, das oft optimal oder nahezu optimal ist.[44]

Sicheres Verstärkungslernen

Safe Verstärkungslernen (SRL) kann als der Prozess der Lernrichtlinien definiert werden, die die Erwartung der Rückkehr bei Problemen maximieren, bei denen es wichtig ist, eine angemessene Systemleistung zu gewährleisten und/oder Sicherheitsbeschränkungen während des Lernens und/oder Bereitstellungen zu respektieren.[45]

Teilweise beaufsichtigte Verstärkungslernen (PSRL)

In PSRL -Algorithmen werden die Vorteile von beaufsichtigten und RL -basierten Ansätzen synergistisch kombiniert. Zum Beispiel kann die Kontrollrichtlinie, die durch einen inversen Ann -basierten Ansatz zur Steuerung eines nichtlinearen Systems gelernt wurde, mithilfe von RL verfeinert werden, wodurch die Rechenkosten vermieden werden, die durch eine zufällige Richtlinie in der traditionellen RL entstanden sind. Teilweise beaufsichtigte Ansätze können die Notwendigkeit umfassender Trainingsdaten im überwachten Lernen lindern und gleichzeitig die Notwendigkeit einer kostspieligen, umfassenden zufälligen Exploration in reinem RL verringern.[2]

Siehe auch

Verweise

  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Verstärkungslernen: Eine Umfrage". Journal of Artificial Intelligence Research. 4: 237–285. Arxiv:CS/9605103. doi:10.1613/jair.301. S2CID 1708582. Archiviert von das Original Am 2001-11-20.
  2. ^ a b Pandian, B. Jaganatha; Noel, Mathew Mithra (2018-09-01). "Kontrolle eines Bioreaktors unter Verwendung eines neuen teilweise beaufsichtigten Verstärkungslernalgorithmus". Journal of Process Control. 69: 16–29. doi:10.1016/j.jprocont.2018.07.013. ISSN 0959-1524. S2CID 126074778.
  3. ^ Van Otterlo, M.; Wiering, M. (2012). Verstärkungslernen und Markov -Entscheidungsprozesse. Verstärkungslernen. Anpassung, Lernen und Optimierung. Vol. 12. S. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  4. ^ Russell, Stuart J.; Norvig, Peter (2010). Künstliche Intelligenz: ein moderner Ansatz (Dritter Aufl.). Upper Saddle River, New Jersey. S. 830, 831. ISBN 978-0-13-604259-4.
  5. ^ Lee, Daeyeol; SEO, Hyojung; Jung, Min Whan (21. Juli 2012). "Neuronale Grundlage des Verstärkungslernens und Entscheidungsfindung". Annual Review of Neuroscience. 35 (1): 287–308. doi:10.1146/Annurev-Neuro-062111-150512. PMC 3490621. PMID 22462543.
  6. ^ Xie, Zhaoming et al. "Allsteps: Lehrplanschriebenes Lernen von Sprungbrettkenntnissen. "Computer Graphics Forum. Vol. 39. Nr. 8. 2020.
  7. ^ Sutton & Barto 1998, Kapitel 11.
  8. ^ Gosavi, Abhijit (2003). Simulationsbasierte Optimierung: Parametrische Optimierungstechniken und Verstärkung. Operations Research/Informatik Interfaces Series. Springer. ISBN 978-1-4020-7454-7.
  9. ^ a b Burnetas, Apostolos n.; Katehakis, Michael N. (1997), "Optimale adaptive Richtlinien für Markov -Entscheidungsprozesse", Mathematics of Operations Research, 22: 222–255, doi:10.1287/moor.22.1.222
  10. ^ Tokic, Michel; Palm, Günther (2011), "Value Difference basierende Erkundung: Adaptive Kontrolle zwischen Epsilon-Greedy und Softmax" (PDF), KI 2011: Fortschritte in der künstlichen Intelligenz, Vorlesungsnotizen in Informatik, Vol. 7006, Springer, S. 335–346, ISBN 978-3-642-24455-1
  11. ^ a b "Verstärkungslernen: Eine Einführung" (PDF).
  12. ^ Sutton, Richard S. (1984). Zeitliche Kreditzuweisung im Verstärkungslernen (Doktorarbeit). Universität von Massachusetts, Amherst, MA.
  13. ^ Sutton & Barto 1998, §6. Temporal-Difference-Lernen.
  14. ^ BRADTKE, Steven J.; Barto, Andrew G. (1996). "Lernen, nach der Methode zeitlicher Unterschiede vorherzusagen". Maschinelles Lernen. 22: 33–57. Citeseerx 10.1.1.143.857. doi:10.1023/a: 1018056104778. S2CID 20327856.
  15. ^ Watkins, Christopher J.C.H. (1989). Lernen aus verzögerten Belohnungen (PDF) (Doktorarbeit). King's College, Cambridge, Großbritannien.
  16. ^ Williams, Ronald J. (1987). "Eine Klasse von Gradientenschätzungsalgorithmen zum Verstärkungslernen in neuronalen Netzwerken". Proceedings der IEEE First International Conference on Neural Networks. Citeseerx 10.1.1.129.8871.
  17. ^ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Verstärkungslernen für humanoide Robotik" (PDF). IEEE-RAS-Internationale Konferenz über humanoide Roboter.
  18. ^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). Eine Umfrage zur Richtliniensuche nach Robotik (PDF). Grundlagen und Trends in der Robotik. Vol. 2. Jetzt Verlage. S. 1–142. doi:10.1561/2300000021. HDL:10044/1/12051.
  19. ^ Juliani, Arthur (2016-12-17). "Einfaches Verstärkungslernen mit Tensorflow Teil 8: Asynchrone Schauspieler-Kritische Agenten (A3C)". Mittel. Abgerufen 2018-02-22.
  20. ^ Sutton, Richard (1990). "Integrierte Architekturen zum Lernen, Planen und Reagieren auf der Grundlage dynamischer Programmierung". Maschinelles Lernen: Verfahren des siebten internationalen Workshops.
  21. ^ Lin, Long-Ji (1992). "Selbstverbesserte reaktive Wirkstoffe basierend auf Verstärkungslernen, Planung und Lehren" (PDF). Volumen des maschinellen Lernens 8.
  22. ^ Van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "Wann können parametrische Modelle im Verstärkungslernen verwendet werden?" (PDF). Fortschritte in den neuronalen Informationsverarbeitungssystemen 32.
  23. ^ Riveret, Regis; Gao, Yang (2019). "Ein probabilistischer Argumentationsrahmen für Verstärkungslernmittel". Autonome Wirkstoffe und Multi-Agent-Systeme. 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2. S2CID 71147890.
  24. ^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Hierarchische Lernen für die Verstärkung: Integration zeitlicher Abstraktion und intrinsischer Motivation". Proceedings der 30. Internationalen Konferenz über neuronale Informationsverarbeitungssysteme. Nips'16. USA: Curran Associates Inc.: 3682–3690. Arxiv:1604.06057. Bibcode:2016ArXIV160406057K. ISBN 978-1-5108-3881-9.
  25. ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). "Selbstorganisierende Karten für die Lagerung und den Übertragung von Wissen im Verstärkungslernen". Adaptives Verhalten. 27 (2): 111–126. Arxiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. S2CID 53774629.
  26. ^ "Über die Verwendung des Verstärkungslernens für das Testspielmechanik: ACM - Computer in Unterhaltung". cie.acm.org. Abgerufen 2018-11-27.
  27. ^ Kaplan, F.; Ousyer, P. (2004). "Maximierung des Lernfortschritts: Ein internes Belohnungssystem für die Entwicklung". In Iida, F.; Pfeifer, R.; Stähle, L.; Kuniyoshi, Y. (Hrsg.). Verkörperte künstliche Intelligenz. Vorlesungsnotizen in Informatik. Vol. 3139. Berlin; Heidelberg: Springer. S. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6.
  28. ^ Klyubin, a.; Polani, D.; Nehaniv, C. (2008). "Halten Sie Ihre Optionen offen: Ein informationsbasiertes Fahrprinzip für sensomotorische Systeme". PLUS EINS. 3 (12): E4018. Bibcode:2008PLOSO ... 3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219.
  29. ^ Barto, A. G. (2013). "Intrinsische Motivation und Verstärkungslernen". Intrinsisch motiviertes Lernen in natürlichen und künstlichen Systemen (PDF). Berlin; Heidelberg: Springer. S. 17–47.
  30. ^ "Verstärkungslernen / Erfolge des Verstärkungslernens". umichrl.pbworks.com. Abgerufen 2017-08-06.
  31. ^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "Deep Execution - Wert und politisches Verstärkungslernen für Handels- und Schlägen von Marktbenchmarks". Das Journal of Machine Learning in Finance. 1.
  32. ^ Dey, somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (März 2020). "Benutzerinteraktion bewusst Verstärkungslernen für Leistung und thermische Effizienz von mobilen MPSOCs von CPU-GPU". 2020 Design, Automatisierungstest in Europa Konferenzausstellung (Datum): 1728–1733. doi:10.23919/Date48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID 219858480.
  33. ^ Quested, Tony. "Smartphones werden mit Essex Innovation | Business Weekly | Technology News | Business News | Cambridge und den Osten Englands". www.businessweekly.co.uk. Abgerufen 2021-06-17.{{}}: CS1 Wartung: URL-Status (Link)
  34. ^ Williams, Rhiannon (2020-07-21). "Zukünftige Smartphones" werden ihre eigene Akkulaufzeit verlängern, indem sie das Verhalten des Eigentümers überwacht ".". i. Abgerufen 2021-06-17.{{}}: CS1 Wartung: URL-Status (Link)
  35. ^ Soucek, Branko (6. Mai 1992). Dynamische, genetische und chaotische Programmierung: Die Computertechnologie-Serie der sechsten Generation Generation. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-x.
  36. ^ Francois-Lavet, Vincent; et al. (2018). "Eine Einführung in das tiefe Verstärkungslernen". Grundlagen und Trends im maschinellen Lernen. 11 (3–4): 219–354. Arxiv:1811.12560. Bibcode:2018ArXIV181112560f. doi:10.1561/2200000071. S2CID 54434537.
  37. ^ Mnih, Volodymyr; et al. (2015). "Kontrolle auf menschlicher Ebene durch tiefes Verstärkungslernen". Natur. 518 (7540): 529–533. Bibcode:2015Natur.518..529m. doi:10.1038/nature14236. PMID 25719670. S2CID 205242740.
  38. ^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). "Erklären und Nutzung von kontroversen Beispielen". Internationale Konferenz über Lernrepräsentationen. Arxiv:1412.6572.
  39. ^ Behzadan, vahid; Munir, Arslan (2017). "Anfälligkeit von tiefen Verstärkungslernen für politische Induktionsangriffe". Internationale Konferenz über maschinelles Lernen und Data Mining in der Mustererkennung. Arxiv:1701.04143.
  40. ^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Gegnerische Angriffe auf Richtlinien für neuronale Netzwerke. OCLC 1106256905.
  41. ^ Korkmaz, Ezgi (2022). "Tiefe Verstärkungslernen Richtlinien lernen gemeinsame kontroverse Merkmale über MDPs hinweg". Sechsunddreißig AAAI-Konferenz über künstliche Intelligenz (AAAI-22).
  42. ^ Berenji, H. R. (1994). "Fuzzy Q-Learning: Ein neuer Ansatz für die fuzzy dynamische Programmierung". Proc. IEEE 3. International Fuzzy Systems Conference. Orlando, FL, USA: IEEE: 486–491. doi:10.1109/fuzzy.1994.343737.
  43. ^ Vincze, David (2017). "Fuzzy -Regel Interpolation und Verstärkungslernen" (PDF). IEEE 15. INTL. Symp. auf Applied Machine Intelligence und Informatics (Sami). IEEE: 173–178. doi:10.1109/sami.2017.7880298.
  44. ^ Ng, A. Y.; Russell, S. J. (2000). "Algorithmen zum inversen Verstärkungslernen" (PDF). Proceeding ICML '00 Proceedings der siebzehnten Internationalen Konferenz über maschinelles Lernen. S. 663–670. ISBN 1-55860-707-2.
  45. ^ García, Javier; Fernández, Fernando (1. Januar 2015). "Eine umfassende Umfrage zum sicheren Verstärkungslernen" (PDF). Das Journal of Machine Learning Research. 16 (1): 1437–1480.

Weitere Lektüre

Externe Links