GDPval: OpenAI bewertet KI-Leistung in wirtschaftlich relevanten Aufgaben

GDPval ist ein neues Benchmark-System von OpenAI, das die Leistungsfähigkeit moderner KI-Modelle bei realen, wirtschaftlich wertvollen Aufgaben misst. Der Datensatz deckt 44 Berufe in den neun größten Wirtschaftssektoren der USA ab und basiert auf realen Arbeitsproben von Fachleuten mit durchschnittlich 14 Jahren Berufserfahrung.

Ziel von GDPval ist es, die wirtschaftliche Relevanz von KI-Fähigkeiten direkt messbar zu machen – jenseits von abstrakten Intelligenztests oder theoretischen Benchmarks. Statt Multiple-Choice-Fragen werden hier komplexe Aufgaben bewertet, die reale Arbeitsprozesse nachbilden, etwa das Erstellen von Berichten, Analysieren von Daten oder Gestalten von Präsentationen.

Die Studie zeigt, dass führende KI-Modelle ihre Leistung auf diesen Aufgaben kontinuierlich verbessern. GPT-5 erzielte die besten Ergebnisse bei Genauigkeit und Berechnung, während Claude Opus 4.1 bei Ästhetik und Layout überzeugte. In über der Hälfte der Fälle bewerteten Fachgutachter die Ergebnisse der KI als gleichwertig oder besser als die von menschlichen Profis.

Besonders interessant: In Szenarien, bei denen Expertinnen und Experten KI-Modelle unterstützend einsetzen („Try-and-Fix“-Ansatz), lassen sich laut OpenAI Zeit- und Kosteneinsparungen erzielen. So kann die Kombination aus KI-Ausgabe und menschlicher Nachbearbeitung effizienter sein als rein manuelle Arbeit.

Neben der Leistungsbewertung untersucht GDPval auch Faktoren wie „Reasoning-Effort“ (logischer Aufwand), Prompt-Tuning und agentenbasierte Arbeitsabläufe. Erhöhte Denktiefe und bessere Formatprüfungen steigerten die Erfolgsraten deutlich. Für die Forschung stellt OpenAI zudem eine „Gold“-Teildatenmenge mit 220 offenen Aufgaben sowie einen automatisierten Bewertungsdienst bereit.

OpenAI weist darauf hin, dass GDPval derzeit auf digitale Wissensarbeit beschränkt ist – manuelle und interaktive Tätigkeiten sind noch nicht erfasst. Künftige Versionen sollen jedoch breitere Arbeitskontexte und mehr Interaktivität abbilden.

Veröffentlichungsdatum: 4. Oktober 2025

Quellen:
1. OpenAI (2025): GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks. https://openai.com/index/gdpval
2. U.S. Bureau of Labor Statistics (2025): Occupational Employment and Wage Statistics: May 2024 National Tables. https://www.bls.gov/oes/tables.htm
3. Federal Reserve Bank of St. Louis (2025): Value Added by Industry as a Percentage of GDP. https://fred.stlouisfed.org/release/tables?rid=331&eid=211
4. Brynjolfsson, E. et al. (2025): Generative AI at Work. The Quarterly Journal of Economics, 140(2).
5. Chatterji, A. et al. (2025): How People Use ChatGPT. NBER Working Paper No. 34255. https://www.nber.org/papers/w34255

Schreibe einen Kommentar