DBRX-Instruct: Wegweisende Innovationen in der künstlichen Intelligenz

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Innovationen im Bereich der KI-Modelle: DBRX-Instruct setzt neue Maßstäbe

Die künstliche Intelligenz (KI) hat in den letzten Jahren rasante Fortschritte gemacht, insbesondere im Bereich der Sprachmodelle. Ein jüngstes Beispiel dafür ist DBRX-Instruct, ein von Databricks entwickeltes Large Language Model (LLM), das in der KI-Community für Aufsehen sorgt. Dieses Modell verfolgt einen neuen Ansatz, um Effizienz und Leistung im Bereich der generativen KI zu steigern und damit einen wichtigen Beitrag zur Weiterentwicklung offener KI-Modelle zu leisten.

DBRX-Instruct gehört zur Familie der Transformer-basierten Decoder-Only Large Language Models, die auf dem Prinzip der Next-Token-Prediction geschult wurden. Es nutzt eine feingliedrige Mixture-of-Experts (MoE)-Architektur mit insgesamt 132 Milliarden Parametern, von denen 36 Milliarden Parameter bei jeder Eingabe aktiv sind. Das Modell wurde auf 12 Billionen Tokens aus Text- und Code-Daten trainiert und bietet eine maximale Kontextlänge von 32.768 Tokens.

Ein Schlüsselmerkmal von DBRX-Instruct ist seine Fähigkeit, verschiedene "Experten" für unterschiedliche Aufgaben zu nutzen. Während andere MoE-Modelle wie Mixtral-8x7B und Grok-1 eine geringere Anzahl an Experten verwenden und nur zwei für eine Aufgabe auswählen, setzt DBRX-Instruct auf 16 Experten, von denen vier aktiv sind. Diese Konfiguration ermöglicht eine 65-fach höhere Kombinationsmöglichkeit von Experten, was sich positiv auf die Modellqualität auswirkt.

Die Innovationen von DBRX-Instruct beschränken sich nicht nur auf die Architektur. Databricks hat bei der Entwicklung des Modells auch neue Wege in der Datenaufbereitung und im Trainingsprozess beschritten. So wurde das Trainingsdatenset mit Hilfe von Apache Spark™ und Databricks Notebooks für Datenverarbeitung, Unity Catalog für Datenmanagement und Governance sowie MLflow für das Experiment-Tracking entwickelt. Durch Curriculum Learning während des Trainings gelang es, die Qualität des Modells weiter zu steigern.

DBRX-Instruct übertrifft in Benchmarks etablierte Open-Source-Modelle bei Aufgaben zum Sprachverständnis (MMLU), Programmierung (HumanEval) und Mathematik (GSM8K). Darüber hinaus ist es effizienter als bisherige Modelle: Die Inferenz ist bis zu doppelt so schnell wie bei LLaMA2-70B und das Modell benötigt nur etwa 40% der Größe von Grok-1 in Bezug auf die Gesamt- und aktiven Parameteranzahlen. In einer von Mosaic AI Model Serving gehosteten Umgebung kann DBRX Text mit einer Geschwindigkeit von bis zu 150 Tokens pro Sekunde pro Nutzer generieren.

Die Verfügbarkeit von DBRX-Instruct ist ein wichtiger Schritt für die Open-Source-Community und für Unternehmen, die ihre eigenen LLMs entwickeln. Die Gewichte des Basismodells und des fein abgestimmten Modells sind unter einer offenen Lizenz auf Hugging Face verfügbar. Kunden von Databricks können DBRX-Instruct über APIs nutzen und eigene DBRX-Klasse-Modelle von Grund auf neu trainieren oder auf Basis eines unserer Checkpoints weitertrainieren, wobei sie dieselben Werkzeuge und wissenschaftlichen Erkenntnisse verwenden, die auch zum Bau von DBRX-Instruct eingesetzt wurden.

Diese Fortschritte zeigen, dass Open-Source-Modelle weiterhin an Qualität gewinnen und einen wachsenden Einfluss auf die KI-Landschaft haben. Mit DBRX-Instruct haben Forscher und Unternehmen nun Zugang zu einem Werkzeug, das ihnen hilft, ihre eigenen KI-Anwendungen zu verbessern und zu personalisieren. Die offene Lizenzierung und die Möglichkeit der Anpassung durch Feinabstimmung eröffnen neue Wege in der Forschung und Entwicklung von KI-Modellen.

Die Zukunft verspricht weitere Entwicklungen und Innovationen im Bereich der KI. Modelle wie DBRX-Instruct sind Vorreiter dieser Bewegung und tragen dazu bei, die Grenzen des Möglichen zu erweitern. Mit seiner Leistungsfähigkeit und Anpassbarkeit ist DBRX-Instruct nicht nur ein Beispiel für den aktuellen Stand der Technik, sondern auch ein Versprechen auf das, was noch kommen mag.

Literaturverzeichnis:
- "Introducing DBRX: A New State-of-the-Art Open LLM" von The Mosaic Research Team, Databricks Blog, 27. März 2024.
- "Announcing DBRX: A new standard for efficient open source LLMs" von Jonathan Frankle et al., Databricks Company Blog, 27. März 2024.
- DBRX-Projekt auf GitHub: https://github.com/databricks/dbrx
- DBRX-Modelle auf Hugging Face: https://huggingface.co/databricks/dbrx-instruct

Durch die Bereitstellung von DBRX-Instruct setzt Databricks neue Standards für offene und effiziente KI-Modelle, die auf die individuellen Bedürfnisse von Unternehmen zugeschnitten sind. Es bleibt spannend zu beobachten, wie sich diese Technologien weiterentwickeln und welche neuen Möglichkeiten sich dadurch eröffnen.

Was bedeutet das?