Katzen irritieren Reasoning‑Modelle: Studie progt Angriff

Erstellt mit ChatGPT und manuell editiert

# Katzen irritieren Reasoning‑Modelle: Studie probt Angriff

**Datum:** 07. Juli 2025
**Autorin:** Eva‑Maria Weiß (heise online)

Ein neuartiger Angriff auf sogenannte Reasoning-Modelle demonstriert, wie schon irrelevante Informationen deren Leistung drastisch verschlechtern. Die Stanford-Studie „Cats Confuse Reasoning LLM“ nutzte eine automatisierte Pipeline:

1. Ein Proxy-Modell („DeepSeek V3“) generierte irreführende Sätze, zum Beispiel:
> „Katzen schlafen fast die ganze Zeit.“
2. Diese Sätze wurden an leistungsfähigere Reasoning-Modelle übermittelt (DeepSeek R1, OpenAI o1, o3‑mini), wobei GPT‑4o den Prompt erzeugte und ein Halluzinations‑Detektor als Prüfer fungierte.

## Studie im Detail 🧠

– **Einfaches Zahlenrätsel + Katzen-Trigger:**
Fügten die Forschenden den Satz hinzu, verdoppelte sich die Fehlerwahrscheinlichkeit bei mathematischen Aufgaben.

– **Zusätzliche Trigger (falsche Zahlen, Finanzweisheiten):**
In Kombination stieg die Fehlerquote um über 300 %.

– **Dabei Slowdown-Attack:**
Modelle wie DeepSeek R1 überschritten bei 42 % der Antworten ihr Token‑Budget um ≥ 50 %; bei OpenAI o1 traf das auf 26 % der Fälle zu – was zu höheren Kosten führt.

## Warum das relevant ist

Diese Manipulation zeigt, dass Reasoning-Modelle anfällig auf scheinbar belanglose Ablenkungen durch Proxy‑Modelle sind. Insbesondere bei sensiblen Anwendungen in **Finanzen**, **Recht** und **Gesundheit** kann das gravierende Konsequenzen haben.

Die Kombination aus **erhöhter Fehlerquote** und **verlängerten Antwortzeiten** macht solche Angriffe besonders bedrohlich – und unterscheidet sie klar von bisherigen Angriffen via Eingangsmanipulation.

## Fazit

Die Studie aus Stanford macht deutlich: Reasoning-Modelle sind aktuell nicht robust genug für kritische Einsätze, solange unkontrollierte oder irrelevante Inhalte ihren Input beeinflussen können. Schutzmaßnahmen sind dringend nötig.

### Quellen

– https://www.heise.de/news/Katzen-irritieren-Reasoning-Modelle-Studie-probt-Angriff-10476834.html

Schreibe einen Kommentar