Bestärkendes Lernen ist eine der verschiedenen Lernformen im Maschinellen Lernen.
Funktionsweise:
- Beim RL interagiert ein autonomer Agent mit seiner Umgebung.
- Der Agent führt Aktionen in der Umgebung aus und erhält als Feedback eine Belohnung oder Strafe.
- Der Agent lernt durch Versuch und Irrtum (Trial and Error) eine Strategie, die darauf abzielt, die kumulierten Belohnungen zu maximieren.
- Wichtige Komponenten sind die Strategien (Policies), die die Aktionen des Agenten bestimmen, und Wertefunktionen, welche die zu erwartenden Belohnungen einschätzen.
- Im Gegensatz zum überwachten Lernen gibt es beim RL kein festes „richtig“ oder „falsch“ für jedes einzelne Beispiel; der Erfolg wird über eine Abfolge von Schritten bewertet.
Anwendung bei modernen KI-Modellen:
- RL spielt eine entscheidende Rolle beim Feintuning von Large Language Models.
- Eine spezielle Form ist Reinforcement Learning from Human Feedback (RLHF), bei dem menschliche Prüfer die Ergebnisse des Sprachmodells bewerten. Auf Basis dieses menschlichen Rankings lernt ein weiteres großes Sprachmodell, die Antworten zu beurteilen und dient fortan als maschinelle Feedback-Schleife zur Verbesserung des Hauptmodells.
- RL wird intensiv beim Training der sogenannten Reasoning-Modelle (wie DeepSeek R1 oder Gemini DeepThink) eingesetzt. Diese Modelle nutzen RL-Verfahren, um Lösungswege zu optimieren. Wenn ein Nutzer eine komplexe Aufgabe stellt, formulieren diese Modelle zunächst einen Lösungsweg und klopfen diesen Schritt für Schritt ab. Der RL-Ansatz animiert die Modelle dazu, viele verschiedene Lösungswege auszuprobieren, die dann durch einen Schiedsrichter bewertet und belohnt werden.