OpenAI stellt GPT-OSS vor
OpenAI hat zwei neue Sprachmodelle mit offenen Gewichten veröffentlicht: GPT-OSS 120B und GPT-OSS 20B. Diese Modelle markieren einen bedeutenden Schritt in Richtung Transparenz und Offenheit bei der Entwicklung großer KI-Modelle.
Technische Details zu GPT-OSS 120B
- Parameteranzahl: 120 Milliarden
- Architektur: Mixture of Experts (MoE)
- Layer: 36 Transformer-Layer
- Experten pro Layer: 128
- Aktive Experten pro Token: 4
Diese Architektur erlaubt es, nur einen Bruchteil der gesamten Parameter pro Token zu nutzen, was Effizienz und Flexibilität erhöht.
GPT-OSS 20B
- Parameteranzahl: 20 Milliarden
- Architektur: Dense Transformer
Im Gegensatz zum 120B-Modell nutzt GPT-OSS 20B eine klassische Dense-Architektur und richtet sich an Anwendungen mit geringeren Rechenanforderungen.
Ziel und Bedeutung
Mit der Veröffentlichung dieser Modelle möchte OpenAI der KI-Community Werkzeuge an die Hand geben, um Forschung, Evaluation und Entwicklung weiter voranzutreiben – ganz im Sinne offener Wissenschaft.
Mehr Informationen gibt es im offiziellen Blogpost von OpenAI: Introducing GPT-OSS.