Die Transformer-Architektur ist eine moderne, tiefschichtige Architektur, die einen Durchbruch im Bereich der generativen KI ermöglichte.
Kernprinzip (Self-Attention):
- Transformer setzen gänzlich auf den Mechanismus der Selbstaufmerksamkeit (Self-Attention).
- Dieser Mechanismus erlaubt es dem Modell, die Abhängigkeiten zwischen Wörtern in langen Texten effizient zu modellieren. Er lenkt den Fokus auf jene Begriffe in einem oder den vorhergehenden Sätzen, die für den jeweiligen Kontext entscheidend sind.
- Ursprünglich wurde die Architektur für die neuronale maschinelle Übersetzung entwickelt. Heute ist sie sehr effizient für Sprach- und Textaufgaben (NLP) und bildet den technischen Kern moderner Large Language Models (LLMs).
Lernprozess im Transformer:
- Der große Durchbruch wurde erzielt, da das Training mit der Transformer-Architektur nicht mehr zwingend manuell gelabelte Daten benötigte.
- LLMs lernen, indem sie das nächste „Token“ vorhersagen (Textvervollständiger). Der Trainingsprozess, oft als selbstüberwachtes Lernen bezeichnet, zerlegt automatisch im Internet veröffentlichte Texte in Sätze, entfernt Wörter (Lückentexte) und nutzt das entfernte Wort als Ground Truth (Musterlösung).
- Trotz des selbstüberwachten Ansatzes wird weiterhin der Backpropagation-Algorithmus verwendet, um die Parameter (Gewichte) anzupassen und den Fehler zu minimieren.