4. Multimodale Modelle
Definition und Ziel: Multimodale Modelle sind KI-Systeme, die mehrere Arten von Daten gleichzeitig verarbeiten, verstehen und generieren können. Im Gegensatz zu unimodalen Modellen (die sich nur auf eine Datenart, z.B. Text, konzentrieren) können multimodale Modelle die Informationen aus verschiedenen Quellen kombinieren, um ein ganzheitlicheres und kontextualisiertes Verständnis zu entwickeln. Sie ahmen die menschliche Wahrnehmung nach, die Informationen über verschiedene Sinne integriert (Sehen, Hören, Fühlen).
Datenmodalitäten: Die Modelle verarbeiten verschiedene Datenformen, darunter:
- Text (umgewandelt in Vektorrepräsentationen/Embeddings).
- Bilder (unterteilt in Patches, ebenfalls als Vektoren repräsentiert).
- Audio (meist als Spektrogramm dargestellt).
- Video (als Sequenz von Bildern, kombiniert mit Audio oder Text).
- Zusätzlich können sie Tiefendaten und IMU-Daten (wie bei ImageBind) integrieren.
Technische Integration: Die Integration der Modalitäten erfolgt technisch über fortschrittliche Architekturen (wie Transformer) und Mechanismen wie Cross-Modal Attention (um Abhängigkeiten zwischen Modalitäten zu steuern) und verschiedene Fusionstechniken (um Daten zu einer gemeinsamen Repräsentation zu kombinieren).
Beispiele und Anwendungen: Bekannte Beispiele für multimodale Modelle sind:
- CLIP (Contrastive Language–Image Pretraining): Trainiert Text- und Bild-Embeddings in einem gemeinsamen Raum, um ähnliche Inhalte zusammenzuführen.
- DALL·E oder Stable Diffusion: Text-to-Image-Modelle, die Bilder aus Textbeschreibungen generieren.
- Whisper: Audio-to-Text-Modell, das gesprochene Sprache transkribiert.
- Video-LLaMA: Kombiniert Video- und Textdaten zum Verstehen und Beschreiben von Videos.
Multimodale Modelle werden unter anderem in der medizinischen Diagnostik (Integration von Röntgenbildern, MRT-Daten und Arztberichten) und in interaktiven Systemen (z.B. Chatbots mit visuellem Kontext) eingesetzt