OpenAI veröffentlicht Open-Weight-Modelle: GPT-OSS 120B und 20B

OpenAI stellt GPT-OSS vor

OpenAI hat zwei neue Sprachmodelle mit offenen Gewichten veröffentlicht: GPT-OSS 120B und GPT-OSS 20B. Diese Modelle markieren einen bedeutenden Schritt in Richtung Transparenz und Offenheit bei der Entwicklung großer KI-Modelle.

Technische Details zu GPT-OSS 120B

  • Parameteranzahl: 120 Milliarden
  • Architektur: Mixture of Experts (MoE)
  • Layer: 36 Transformer-Layer
  • Experten pro Layer: 128
  • Aktive Experten pro Token: 4

Diese Architektur erlaubt es, nur einen Bruchteil der gesamten Parameter pro Token zu nutzen, was Effizienz und Flexibilität erhöht.

GPT-OSS 20B

  • Parameteranzahl: 20 Milliarden
  • Architektur: Dense Transformer

Im Gegensatz zum 120B-Modell nutzt GPT-OSS 20B eine klassische Dense-Architektur und richtet sich an Anwendungen mit geringeren Rechenanforderungen.

Ziel und Bedeutung

Mit der Veröffentlichung dieser Modelle möchte OpenAI der KI-Community Werkzeuge an die Hand geben, um Forschung, Evaluation und Entwicklung weiter voranzutreiben – ganz im Sinne offener Wissenschaft.

Mehr Informationen gibt es im offiziellen Blogpost von OpenAI: Introducing GPT-OSS.

Schreibe einen Kommentar