## Top‑KI‑Modelle versagen spektakulär bei leicht abgewandelten medizinischen Fragen
**Einleitung**
KI-Modelle erreichen häufig beeindruckende Testergebnisse bei medizinischen Prüfungen – traut man dem Erfolgserlebnis jedoch blind, kann das gefährlich sein. Eine neue Studie offenbart gravierende Schwächen, sobald Fragen nur leicht abgeändert werden.
**Inhalt & Kernaussagen**
– Die Leistung der getesteten KI-Systeme – darunter GPT‑4 und ähnliche Modelle – brach drastisch ein, sobald die Antwortoptionen geringfügig verändert wurden.
– In einigen Fällen fiel die Genauigkeit von rund 80 % auf nur noch 42 %. Das lässt sich vergleichen mit einem Schüler, der im Training brilliert, aber in der Prüfung scheitert, sobald die Fragen anders formuliert sind. ([psypost.org](https://www.psypost.org/top-ai-models-fail-spectacularly-when-faced-with-slightly-altered-medical-questions/?utm_source=chatgpt.com))
– Fazit der Forschenden: KI kann Ärzte unterstützen, aber nicht ersetzen – insbesondere nicht in komplexen oder leicht veränderten Kontexten.
—
## Ergänzende Informationen und aktuelle Forschungsergebnisse
### 1. GPT‑4 & Co. – Abruptes Leistungsminus bei minimalen Veränderungen
Laut *WebProNews* zeigen KI-Modelle wie GPT‑4 zwar starke Leistungen bei Standard‑Medizinprüfungen, schwächeln aber deutlich bei leicht veränderten Fragestellungen – mit einem Genauigkeitsverlust von bis zu 40 %. Auch das betont, wie oberflächlich das Verständnis dieser Systeme sein kann. ([apnews.com](https://apnews.com/article/6f2a330086acd0a1f8955ac995bdde4d?utm_source=chatgpt.com), [webpronews.com](https://www.webpronews.com/gpt-4-excels-on-medical-exams-but-falters-on-altered-questions/?utm_source=chatgpt.com))
### 2. Fehleranfälligkeit bei Tippfehlern, Umgangssprache oder schlechter Formatierung
Eine MIT-Studie weist nach, dass KI-Modelle (z. B. GPT‑4, Llama‑3‑70B, Palmyra‑Med) bei fehlerhaften oder informellen Eingaben 7–9 % häufiger falsche Empfehlungen geben – etwa davon abraten, ärztliche Hilfe in Anspruch zu nehmen. Das unterstreicht die Fragilität solcher Systeme in realen Alltagsszenarien. ([windowscentral.com](https://www.windowscentral.com/artificial-intelligence/typos-medical-prompts-chatbots-could-be-catastrophic?utm_source=chatgpt.com))
### 3. Risiko falscher oder verfälschter wissenschaftlicher Inhalte
In wissenschaftlichen Kontexten neigen moderne KI-Modelle dazu, Forschungsergebnisse zu vereinfachen oder zu verfälschen – laut einer Untersuchung im *Royal Society Open Science*-Journal war die Rate an Übervereinfachungen oder Ungenauigkeiten bei medizinischen Themen deutlich erhöht. ([livescience.com](https://www.livescience.com/technology/artificial-intelligence/ai-chatbots-oversimplify-scientific-studies-and-gloss-over-critical-details-the-newest-models-are-especially-guilty?utm_source=chatgpt.com))
### 4. Sicherheitsmängel in öffentlich zugänglichen Chatbots
Eine aktuelle, von Ärzt:innen geleitete Untersuchung (Red‑Teaming) verglich Claude (Anthropic), Gemini (Google), GPT‑4o (OpenAI) und Llama3-70B (Meta) auf dem Datensatz *HealthAdvice*. Die Ergebnisse zeigen unerfreuliche Unterschiede:
– Problematische Antworten: zwischen **21,6 %** (Claude) und **43,2 %** (Llama3).
– **Unsichere Antworten**, die potenziell gefährlich sind: 5 % (Claude) bis 13 % (GPT‑4o und Llama3).
Das zeigt: Millionen Nutzer:innen könnten durch KI falsche oder riskante medizinische Ratschläge erhalten. ([arxiv.org](https://arxiv.org/abs/2507.18905?utm_source=chatgpt.com))
### 5. Versagen bei falschen Annahmen oder voreingenommenen Fragen
Das *Cancer‑Myth*-Dataset enthält echte Patientenfragen zum Thema Krebs mit falschen Voraussetzungen. Kein modernes Modell (darunter GPT‑4o, Gemini‑1.Pro, Claude‑3.5‑Sonnet) korrigierte solche falschen Prämissen in über 30 % der Fälle – eine kritische Schwäche bei der klinischen Zuverlässigkeit. ([arxiv.org](https://arxiv.org/abs/2504.11373?utm_source=chatgpt.com))
### 6. Limitierte Fähigkeit in Freiformantworten vs. Multiple‑Choice‑Format
Ein weiteres Paper zeigt: KI-Modelle verlieren im freien Textformat im Durchschnitt rund **39 % Leistung**, verglichen mit Multiple‑Choice‑Tests – deutlich mehr als menschliche Diagnostiker (ca. 22 % Verlust). Bei vollständig maskierten Fragen war die Leistung nahe Null. Ein Hinweis darauf, dass standardisierte Tests die Fähigkeiten von KI-Systemen überschätzen. ([arxiv.org](https://arxiv.org/abs/2503.13508?utm_source=chatgpt.com))
—
Fazit und Empfehlungen
Punkt | Erkenntnis |
——- | ———— |
**Oberflächliches Verständnis** | KI löst Fragen meist durch Muster, nicht durch echtes medizinisches Verständnis. |
**Hohe Anfälligkeit** | Schon kleine Änderungen in Sprache, Kontext oder Format können die Leistung stark beeinträchtigen. |
**Unsichere Antworten** | Ein erheblicher Anteil generierter medizinischer Ratschläge ist potenziell gefährlich. |
**Multiple-Choice-Trugschluss** | Gute Leistungen bei MCQs sind kein Beweis für klinischen Gesamtnutzen – viele Antworten scheitern im freien Format. |
**Dringend menschliche Kontrolle erforderlich** | KI kann unterstützen – aber Diagnosen und Entscheidungen müssen stets von medizinischem Fachpersonal überprüft werden. |
|
—
**Takeaway-Message:**
KI in der Medizin bietet Potenzial, bleibt jedoch extrem fragil. Ärztliche Expertise ist unverzichtbar, und KI-gestützte Systeme müssen kritisch geprüft und reguliert werden.
—
## Quellen
– [PsyPost – Top AI models fail spectacularly when faced with slightly altered medical questions](https://www.psypost.org/top-ai-models-fail-spectacularly-when-faced-with-slightly-altered-medical-questions/?utm_source=chatgpt.com)
– [AP News – GPT-4 excels on medical exams but falters on altered questions](https://apnews.com/article/6f2a330086acd0a1f8955ac995bdde4d?utm_source=chatgpt.com)
– [WebProNews – GPT-4 excels on medical exams but falters on altered questions](https://www.webpronews.com/gpt-4-excels-on-medical-exams-but-falters-on-altered-questions/?utm_source=chatgpt.com)
– [Windows Central – Typos in medical prompts could be catastrophic](https://www.windowscentral.com/artificial-intelligence/typos-medical-prompts-chatbots-could-be-catastrophic?utm_source=chatgpt.com)
– [LiveScience – AI chatbots oversimplify scientific studies](https://www.livescience.com/technology/artificial-intelligence/ai-chatbots-oversimplify-scientific-studies-and-gloss-over-critical-details-the-newest-models-are-especially-guilty?utm_source=chatgpt.com)
– [arXiv – HealthAdvice Red-Teaming Study](https://arxiv.org/abs/2507.18905?utm_source=chatgpt.com)
– [arXiv – Cancer-Myth Dataset Study](https://arxiv.org/abs/2504.11373?utm_source=chatgpt.com)
– [arXiv – Free-form vs Multiple-Choice Medical QA](https://arxiv.org/abs/2503.13508?utm_source=chatgpt.com)