Die Performanz eines KI-Systems wird anhand messbarer und qualitativer Merkmale beurteilt und umfasst sowohl Genauigkeit als auch Robustheit und Geschwindigkeit:
- Genauigkeit und Komplexität: Deep Learning liefert mit ausreichend Daten oft höhere Genauigkeiten als flache Modelle, da tiefe Netze selbstständig komplexe Muster und Zusammenhänge erkennen können.
- Robustheit: Dieses Kriterium bezieht sich auf die Generalisierungsfähigkeit des Modells, d. h. seine Leistung bei neuen Eingaben, selbst wenn diese verrauscht oder manipuliert sind (adversarial examples). Das KI-System muss in jeder Situation zuverlässig funktionieren.
- Skalierung und Modellgröße (LLMs): Die Leistungsfähigkeit von Large Language Models (LLMs) wird unter anderem durch die Anzahl der Parameter (z. B. 8 Milliarden oder 70 Milliarden Parameter) und die Kontextlänge (z. B. bis zu 2 Millionen Tokens) gemessen. Die Verbesserungen in der Leistungsfähigkeit skalieren tendenziell mit der Potenz des anfänglichen Basismodells.
- Fehlerquoten und Halluzinationen: Bei generativen Modellen muss das Risiko von Halluzinationen beachtet werden (plausible, aber inhaltlich falsche Texte), was die Zuverlässigkeit mindert. Modelle mit Reasoning-Fähigkeiten sollen diese Fehler verringern.
- Geschwindigkeit: Im Unternehmenskontext sind schnelle Antwortzeiten ein wichtiger Performance-Indikator, die von Stunden auf Minuten gesenkt werden können. Modelle, die effiziente Architekturen oder Komprimierungstechniken nutzen, können schneller sein.