Der Bedarf an Trainingsdaten ist ein fundamentaler Aspekt bei der Bewertung und Auswahl von KI-Modellen:
- Datenhunger von Deep Learning (DL): Tiefe neuronale Netze (DL-Modelle) benötigen in der Regel sehr große Mengen an Trainingsdaten. Es wird geschätzt, dass sie oft 20–50 Mal mehr Daten benötigen als klassische Algorithmen. Bei unüberwachtem Lernen können Tausende Beispiele pro Merkmal notwendig sein.
- Qualität und Repräsentativität: Die Leistungsfähigkeit (Performanz) hängt maßgeblich von der Qualität und Menge der Daten ab. Die Daten müssen die Vielfalt der realen Welt abbilden; fehlen wichtige Beispiele oder sind die Daten verzerrt (Bias), leidet die Erkennungsfähigkeit. Schlechte Datenqualität kann zu falschen Schlussfolgerungen oder voreingenommenen Ergebnissen führen.
- Voraussetzung für KI-Wertschöpfung: Die Verfügbarkeit und Qualität von Daten wird als die wichtigste Voraussetzung für einen erfolgreichen Einsatz von KI genannt, da KI-Algorithmen ohne ausreichende Daten nicht angemessen trainiert werden können, um Muster zu erkennen und Probleme zu lösen. Viele Unternehmen, insbesondere KMU, kämpfen mit einer fragmentierten oder mangelhaften Datenbasis.