Wettlauf der KI-Giganten: Databricks Modell erobert die Spitze im Benchmark-Ranking

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In der Welt der künstlichen Intelligenz herrscht ein stetiger Wettbewerb, um die fortschrittlichsten und leistungsfähigsten Modelle zu entwickeln. Ein neuer Meilenstein in diesem Rennen wurde kürzlich erreicht, als das DBRX-Base Modell von Databricks die Spitzenposition in der URIAL-Benchmark-Liste erzielte. Diese Liste ist ein wichtiger Indikator für die Leistungsfähigkeit von Large Language Models (LLMs), die auf dem MT-Bench mit URIAL-Prompts getestet werden. Diese Prompts beinhalten dreischrittige Instruktionsbeispiele, welche die Modelle befolgen müssen.

Das MT-Bench ist eine anspruchsvolle Reihe von mehrstufigen Fragen, die dazu dienen, die Konversationsfähigkeiten und die Fähigkeit, Anweisungen zu befolgen, von Modellen zu bewerten. Dabei geht es nicht nur um die Genauigkeit der Antworten, sondern auch um das Verständnis und die Relevanz der Reaktionen im Kontext eines Dialogs. Die Leistung der Modelle wird in einem von GPT-4 bewerteten Szenario betrachtet und bietet somit eine wertvolle Perspektive auf die Qualität der Antworten.

Die Bewertung von Large Language Models ist eine komplexe Aufgabe, da diese Modelle ein breites Spektrum an Fähigkeiten aufweisen und bestehende Benchmarks oft nicht ausreichen, um menschliche Präferenzen adäquat zu messen. Um diese Lücke zu schließen, wurde die Idee der Nutzung von LLMs als Richter ins Spiel gebracht, um Modelle anhand offenerer Fragen zu bewerten. In der Studie "Judging LLM-as-a-Judge" werden die Verwendung und die Einschränkungen von LLMs als Richter untersucht, einschließlich Positionsbias, Ausführlichkeitsbias, Selbstüberhöhungsbias sowie begrenzte Argumentationsfähigkeit.

Die Forscher hinter der Studie schlagen Lösungen vor, um einige dieser Einschränkungen zu mildern, und bestätigen die Übereinstimmung zwischen LLM-Richtern und menschlichen Präferenzen durch die Einführung von zwei Benchmarks: dem bereits erwähnten MT-Bench und der Chatbot Arena, einer von der Menge gesourcten Plattform, auf der Modelle gegeneinander antreten.

Die Ergebnisse zeigen, dass starke LLM-Richter wie GPT-4 gut mit sowohl kontrollierten als auch durch die Menge gesourcten menschlichen Präferenzen übereinstimmen können und über 80% Übereinstimmung erreichen. Dieses Niveau der Übereinstimmung ist vergleichbar mit der Übereinstimmung zwischen verschiedenen menschlichen Richtern. Somit kann LLM-as-a-Judge als eine skalierbare und nachvollziehbare Methode dienen, um menschliche Vorlieben zu approximieren, die sonst sehr aufwendig zu ermitteln wären.

Zusätzlich zeigen die Autoren, dass ihr Benchmark und traditionelle Benchmarks sich ergänzen, indem sie mehrere Varianten von LLaMA- und Vicuna-Modellen bewerten. Die MT-Bench-Fragen, 3K Expertenstimmen und 30K Unterhaltungen mit menschlichen Präferenzen sind öffentlich zugänglich gemacht worden.

Das Chatbot Arena Leaderboard, basierend auf anonymen Stimmen unter Verwendung des Elo-Bewertungssystems, zeigt ebenfalls, wie Modelle im direkten Vergleich abschneiden. Neben dem MT-Bench-Score und MMLU, einem weit verbreiteten Benchmark, bietet es einen umfassenden Überblick über die Leistungsfähigkeit verschiedener Chatbot-Modelle.

Die Veröffentlichung dieser Ergebnisse ist nicht nur ein Zeugnis für die Fortschritte der KI-Forschung, sondern auch ein Ansporn für Entwickler, weiterhin Modelle zu optimieren und zu verbessern. Sie unterstreicht die Bedeutung von Benchmarks, welche die menschlichen Präferenzen im Auge behalten, insbesondere in einem Umfeld, in dem KI-Modelle zunehmend in unserem Alltag integriert werden.

Der Fortschritt in der KI-Branche hängt von solchen Benchmarks ab, die als Leitfaden für Entwickler und Forscher dienen, um die Grenzen dessen, was maschinelle Intelligenz erreichen kann, zu erweitern. Es ist eine spannende Zeit für KI-Enthusiasten und Fachleute, da Modelle wie DBRX-Base den Weg für intelligentere und effizientere KI-Anwendungen ebnen.

Quellen:
1. Zheng, Lianmin, et al. "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena." arXiv preprint arXiv:2306.05685 (2023).
2. Huggingface Spaces: URIAL-Bench. Verfügbar unter: https://huggingface.co/spaces/allenai/URIAL-Bench
3. LMSYS Blog. "Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B." Verfügbar unter: https://lmsys.org/blog/2023-06-22-leaderboard/