Semantische Entropie in Large Language Models: Bedeutung über Wörter hinaus

In der Welt der großen Sprachmodelle (LLMs) wird oft untersucht, wie unsicher ein Modell beim Vorhersagen des nächsten Tokens ist — typischerweise mittels Shannon-Entropie über Wortwahrscheinlichkeiten. Doch diese Unsicherheit bezieht sich vor allem auf die Wortwahl, nicht unbedingt auf die Bedeutung. Semantische Entropie ist eine neuere Idee: Sie misst, wie sehr die möglichen Ausgaben eines LLMs in semantischer Hinsicht variieren — also ob sie wirklich unterschiedliche Bedeutungen transportieren.

Warum klassische Entropie manchmal täuscht:
Ein Modell kann viele Token mit ähnlicher Wahrscheinlichkeit erwägen (hohe Token-Entropie), aber alle ausgedrückten Sätze können inhaltlich ähnlich sein — klassische Entropie würde große Unsicherheit suggerieren, obwohl sie oberflächlich ist.
Beispiel: „Ich bin müde“ vs. „Ich fühle mich erschöpft“ — zwei unterschiedliche Formulierungen, aber dieselbe Bedeutung. Klassische Entropie sähe Diversität; semantisch gibt’s keine echte Variation.

Technischer Ansatz (Skizze):
1. Antwortsampling: Mehrere mögliche Ausgaben werden generiert (z. B. mit Temperatur oder Sampling-Strategien).
2. Semantische Repräsentation / Embeddings: Jede Ausgabe wird in einem semantischen Vektorraum abgebildet (etwa durch Sentence-BERT oder OpenAI-Embeddings).
3. Clusterbildung / Entailment-basierte Gruppierung: Antworten, die sich in Bedeutung nahe sind, werden zu Gruppen zusammengefasst.
4. Entropie über Bedeutungsgruppen: Man berechnet die Wahrscheinlichkeiten jeder Bedeutungsklasse und daraus die Entropie.

Wichtige Weiterentwicklungen:
– Kernel Language Entropy (KLE): Verwendet Paarkernel (semantische Ähnlichkeiten) und von Neumann-Entropie.
– Semantic Entropy Probes (SEPs): Approximation der semantischen Entropie aus einem einzelnen Modell-Durchlauf.
– Fine-Tuning mit semantischer Entropie: Modelle lernen, bei hoher semantischer Entropie vorsichtiger zu antworten.
– Semantic Volume: Misst die Streuung von Embeddings über Perturbationen.

Potenzielle Anwendungen:
– Halluzinationserkennung: Hohe semantische Entropie korreliert mit inkonsistenten Ausgaben.
– Vertrauensmetriken: Systeme können bei hoher Unsicherheit lieber Rückfragen stellen.
– Antwortaggregation: Hilft, Konsenscluster zu erkennen.
– Abstinenz-Training: Modelle antworten zurückhaltender, wenn sie semantisch unsicher sind.

Grenzen:
– Rechenaufwand durch mehrfaches Sampling.
– Uneinigkeit bei Definition semantischer Gleichheit.
– Schwierigkeiten bei langen Texten.
– Systematische Trainingsfehler bleiben unentdeckt.

Quellen:
1. Nikitin et al. (2024): Kernel Language Entropy, arXiv:2405.20003 — https://arxiv.org/abs/2405.20003
2. Kossen et al. (2024): Semantic Entropy Probes, arXiv:2406.15927 — https://arxiv.org/abs/2406.15927
3. OATML Oxford (2024): Detecting Hallucinations in LLMs — https://oatml.cs.ox.ac.uk/blog/2024/06/19/detecting_hallucinations_2024.html
4. Nature (2024): The limits of confidence in generative models — https://www.nature.com/articles/s41586-024-07421-0
5. PubMed (2024): Semantic Entropy and Model Calibration — https://pubmed.ncbi.nlm.nih.gov/38898292/

Schreibe einen Kommentar