Erste Ergebnisse des K Prize AI Coding Challenge: nur 7,5 % richtige Antworten – und ein Sieger

## Lead-Paragraph:
Der neu gestartete K Prize, ein KI-Coding-Wettbewerb von Databricks und Andy Konwinski (Perplexity), hat seinen ersten Preisträger gekürt – und die Ergebnisquote ist ernüchternd: Der Sieger erreichte lediglich 7,5 % korrekte Antworten.

## 1. Was ist der K Prize?
– Ein **mehrstufiger KI-Coding-Wettbewerb**, veranstaltet vom Laude Institute, Databricks und Perplexity-Mitgründer Andy Konwinski.
– Ziel: Ein **“kontaminationsfreies“ Benchmark-System**, das auf GitHub-Issues basiert, die nach dem 12. März 2025 erstmals verwendet wurden. So soll verhindert werden, dass Modelle vorab für die Testdaten trainieren konnten.

## 2. Wer hat gewonnen – und wie?
– Sieger: **Eduardo Rocha de Andrade** aus Brasilien, als Prompt Engineer. Netto-Gewinn: **50.000 $**.
– Sein Ergebnis: nur **7,5 % richtig beantwortete Fragen** – ein Hinweis auf die Schwierigkeit des Tests.

## 3. Warum ist das so bemerkenswert?
– Im Gegensatz dazu erzielt SWE‑Bench bei demselben Aufgabenbereich 75 % (leichtes Verified-Level) bzw. 34 % (Full-Level) – jedoch ist SWE‑Bench anfällig für Datencontamination.
– Konwinski betonte, das Ziel sei es, ein härteres Benchmark zu schaffen, das **kleinere, offene Modelle bevorzugt**, weil große Labormodelle von Contamination profitieren würden.

## 4. Was kommt als Nächstes?
– Konwinski setzt nun **1 Millionen Dollar** aus: für das erste Open‑Source‑Modell, das über **90 % auf dem K Prize** erreicht.
– Weitere Wettbewerbsläufe sollen Folgen ­– um zu verstehen, ob menschliches Lernen oder Modelldynamik die Erfolgsrate verbessern.

## 5. Bedeutung und Ausblick
– Die Resultate sind ein **Gegenmittel zur überschätzten KI‑Fähigkeit**, besonders im Bereich Software Engineering.
– Der K Prize zwingt zur Reflexion: Solange selbst einfachste Tests so viele Fehler produzieren, ist der Hype über KI‑Softwareingenieure wohl verfrüht.

Quelle : A new AI coding challenge just published its first results — and they aren’t pretty | TechCrunch

Schreibe einen Kommentar