Google-Forscher stellen AudioPaLM vor: ein Game-Changer in der Sprachtechnologie – ein neues großes Sprachmodell, das mit beispielloser Genauigkeit zuhört, spricht und übersetzt

 
 
Der Link führt zu einem Artikel auf Google News mit dem Titel „Google Research Audience at a Game Changer in Speech Technology and a new Larry Page-backed AI startup“. Der Artikel handelt von der Bedeutung der Sprachtechnologie und einer neuen von Larry Page unterstützten KI-Start-up-Firma.
 
 
 

news.google.com/articles/CBMizQFodHRwczovL3d3dy5tYXJrdGVjaHBvc3QuY29tLzIwMjMvMDYvMjMvZ29vZ2xlLXJlc2VhcmNoZXJzLWludHJvZHVjZS1hdWRpb3BhbG0tYS1nYW1lLWNoYW5nZXItaW4tc3BlZWNoLXRlY2hub2xvZ3ktYS1uZXctbGFy…

 
 

VonTanya Malhotra

 –

23. Juni 2023

Large Language Models (LLMs) stehen seit einigen Monaten im Rampenlicht. Als einer der besten Fortschritte auf dem Gebiet der künstlichen Intelligenz verändern diese Modelle die Art und Weise, wie Menschen mit Maschinen interagieren. Da jede Branche diese Modelle übernimmt, sind sie das beste Beispiel dafür, wie KI die Welt erobert. LLMs zeichnen sich durch die Erstellung von Texten für Aufgaben aus, die komplexe Interaktionen und Wissensabruf beinhalten, das beste Beispiel dafür ist der berühmte, von OpenAI entwickelte Chatbot ChatGPT, der auf der Transformer-Architektur von GPT 3.5 und GPT 4 basiert. Nicht nur in der Textgenerierung, sondern auch für die Bildproduktion wurden Modelle wie CLIP (Contrastive Language-Image Pretraining) entwickelt, die die Erstellung von Texten in Abhängigkeit vom Inhalt des Bildes ermöglichen.

Um Fortschritte bei der Audioerzeugung und dem Audioverständnis zu erzielen, hat ein Forscherteam von Google AudioPaLM eingeführt, ein großes Sprachmodell, das Aufgaben des Sprachverständnisses und der Spracherzeugung bewältigen kann. AudioPaLM kombiniert die Vorteile zweier bestehender Modelle, nämlich des PaLM-2-Modells und des AudioLM-Modells, um eine einheitliche multimodale Architektur zu schaffen, die sowohl Text als auch Sprache verarbeiten und produzieren kann. Dadurch kann AudioPaLM eine Vielzahl von Anwendungen bewältigen, die von der Spracherkennung bis zur Konvertierung von Sprache in Text reichen.

Während AudioLM hervorragend darin ist, paralinguistische Informationen wie Sprecheridentität und Tonfall beizubehalten, ist PaLM-2, ein textbasiertes Sprachmodell, auf textspezifisches linguistisches Wissen spezialisiert. Durch die Kombination dieser beiden Modelle nutzt AudioPaLM die linguistische Expertise von PaLM-2 und die paralinguistische Informationsspeicherung von AudioLM, was zu einem gründlicheren Verständnis und einer gründlicheren Erstellung von Text und Sprache führt.

AudioPaLM verwendet ein gemeinsames Vokabular, das sowohl Sprache als auch Text mit einer begrenzten Anzahl diskreter Token darstellen kann. Die Kombination dieses gemeinsamen Vokabulars mit Markupaufgabenbeschreibungen ermöglicht das Trainieren eines einzelnen Decodermodells für eine Vielzahl von sprach- und textbasierten Aufgaben. Aufgaben wie Spracherkennung, Text-to-Speech-Synthese und Speech-to-Speech-Übersetzung, die traditionell getrennte Modelle waren, können nun in einer einzigen Architektur und einem einzigen Trainingsprozess vereint werden.

Bei der Evaluierung übertraf AudioPaLM bestehende Systeme bei der Sprachübersetzung deutlich. Es demonstrierte die Fähigkeit, eine Zero-Shot-Sprache-zu-Text-Übersetzung für Sprachkombinationen durchzuführen, was bedeutet, dass es Sprache für Sprachen, die es noch nie zuvor gesehen hat, genau in Text übersetzen kann, was Möglichkeiten für eine breitere Sprachunterstützung eröffnet. AudioPaLM kann auch Stimmen auf der Grundlage kurzer gesprochener Ansagen sprachübergreifend übertragen und unterschiedliche Stimmen in verschiedenen Sprachen erfassen und wiedergeben, was eine Sprachkonvertierung und -anpassung ermöglicht.

🚀 Treten Sie der am schnellsten wachsenden ML-Community auf Reddit bei

Die wichtigsten Beiträge, die das Team erwähnt hat, sind:

  1. AudioPaLM nutzt die Fähigkeiten von PaLM und PaLM-2 aus dem reinen Textvortraining.
  2. Es hat SOTA-Ergebnisse bei den Benchmarks für automatische Sprachübersetzung und Sprache-zu-Sprache-Übersetzung sowie Wettbewerbsleistung bei Benchmarks für automatische Spracherkennung erzielt.
  3. Das Modell führt Speech-to-Speech-Übersetzung mit Sprachübertragung von unsichtbaren Sprechern durch und übertrifft damit bestehende Methoden in Bezug auf Sprachqualität und Stimmerhaltung.
  4. AudioPaLM demonstriert Zero-Shot-Fähigkeiten, indem es eine automatische Sprachübersetzung mit ungesehenen Sprachkombinationen durchführt.

Zusammenfassend lässt sich sagen, dass AudioPaLM, ein einheitliches LLM, das sowohl Sprache als auch Text verarbeitet, indem es die Fähigkeiten textbasierter LLMs nutzt und Audio-Prompting-Techniken integriert, eine vielversprechende Ergänzung der Liste der LLMs ist.

Schreibe einen Kommentar