Chatbot Arena: Benchmarking von Sprachmodellen neu definiert

Kategorien:
No items found.
Freigegeben:
July 11, 2024

Chatbot Arena: Ein Meilenstein im Benchmarking von Sprachmodellen

Einleitung


Im Zuge des technologischen Fortschritts der letzten Jahre hat die Entwicklung von großen Sprachmodellen (Large Language Models, LLMs) enorm an Bedeutung gewonnen. Insbesondere nach dem Erfolg von ChatGPT haben zahlreiche Open-Source-Modelle wie Alpaca und Vicuna, die auf LLaMA basieren, sowie OpenAssistant und Dolly, die auf Pythia basieren, die Bühne betreten. Diese Modelle bieten wertvolle Unterstützung bei der Beantwortung von Benutzeranfragen. Doch trotz der ständigen Veröffentlichung neuer Modelle steht die Gemeinschaft vor der Herausforderung, diese effektiv zu benchmarken. Hier kommt die Chatbot Arena ins Spiel.


Die Herausforderung des Benchmarkings


Das Benchmarking von LLMs ist eine komplexe Aufgabe, da die Probleme oft offen sind und es schwierig ist, die Qualität der Antworten automatisch zu bewerten. In vielen Fällen ist eine menschliche Bewertung auf Basis von paarweisen Vergleichen erforderlich. Ein effektives Benchmark-System sollte folgende Eigenschaften haben:
- Skalierbarkeit: Das System sollte in der Lage sein, eine große Anzahl von Modellen zu skalieren.
- Inkrementalität: Neue Modelle sollten mit relativ wenigen Tests bewertet werden können.
- Einzigartige Ordnung: Das System sollte eine eindeutige Reihenfolge für alle Modelle bereitstellen.


Einführung der Chatbot Arena


Um diesen Herausforderungen zu begegnen, wurde die Chatbot Arena ins Leben gerufen. Diese Plattform ermöglicht anonyme, zufällige Kämpfe zwischen verschiedenen Sprachmodellen in einer Crowdsourcing-Manier. Die Chatbot Arena verwendet das Elo-Bewertungssystem, das auch im Schach und anderen Wettkampfspielen weit verbreitet ist. Dieses System bietet die gewünschten Eigenschaften für ein effektives Benchmarking.


Datensammlung und erster Überblick


Die Arena wurde vor einer Woche gestartet und hat seitdem 4.700 gültige anonyme Stimmen gesammelt. Benutzer können mit zwei anonymen Modellen gleichzeitig chatten und für das Modell abstimmen, das sie für besser halten. Nach der Abstimmung werden die Modellnamen offengelegt, und die Benutzer können entweder weiter chatten oder einen neuen Kampf beginnen. Die Plattform protokolliert alle Benutzerinteraktionen, und in der Analyse werden nur die Stimmen verwendet, bei denen die Modellnamen verborgen sind.


Erste Ergebnisse


Bisher wurden folgende Modelle bewertet:
- Vicuna-13B: Ein Chat-Assistent, der aus LLaMA auf Basis von Benutzerkonversationen feingetunt wurde.
- Koala-13B: Ein Dialogmodell für akademische Forschung.
- Oasst-Pythia-12B: Ein Open Assistant für alle von LAION.
- Alpaca-13B: Ein Modell, das aus LLaMA auf Grundlage von Demonstrationen zur Befolgung von Anweisungen feingetunt wurde.


Das Elo-Bewertungssystem


Das Elo-Bewertungssystem berechnet die relative Fähigkeit der Spieler. Der Unterschied in den Bewertungen zwischen zwei Spielern dient als Prädiktor für das Ergebnis eines Spiels. Das System funktioniert gut für unsere Zwecke, da wir mehrere Modelle haben und paarweise Kämpfe zwischen ihnen durchführen.


Zukünftige Pläne


Die Betreiber der Chatbot Arena planen, folgende Punkte zu bearbeiten:
- Hinzufügen weiterer geschlossener Modelle (z.B. ChatGPT-3.5, ChatGPT-4 und Claude-v1).
- Hinzufügen weiterer Open-Source-Modelle.
- Periodische Aktualisierungen der Ranglisten (z.B. monatlich).
- Implementierung besserer Sampling-Algorithmen, Turniermechanismen und Serviersysteme zur Unterstützung einer größeren Anzahl von Modellen.
- Bereitstellung feingranularer Ranglisten für verschiedene Aufgabentypen.


Aufruf zur Teilnahme


Die gesamte Gemeinschaft ist eingeladen, an dieser Benchmarking-Initiative teilzunehmen, indem sie ihre Modelle und Stimmen für die anonymen Modelle, die bessere Antworten liefern, beisteuern. Besuchen Sie https://arena.lmsys.org, um für bessere Modelle abzustimmen. Wenn Sie ein bestimmtes Modell in der Arena sehen möchten, können Sie dieser Anleitung folgen, um uns bei der Hinzufügung zu unterstützen.


Anerkennung


Ein besonderer Dank geht an die Mitglieder des Vicuna-Teams für wertvolles Feedback und an das MBZUAI für die Bereitstellung von Computerressourcen. Ebenso danken wir Tianjun Zhang und Eric Wallace für ihre aufschlussreichen Diskussionen.


Links


- Demo: https://arena.lmsys.org
- Leaderboard: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- GitHub: https://github.com/lm-sys/FastChat


Zitierung


Bitte zitieren Sie die folgenden Arbeiten, wenn Sie unsere Arbeit nützlich finden:
@misc{chiang2024chatbot,
   title={Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference},
   author={Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez und Ion Stoica},
   year={2024},
   eprint={2403.04132},
   archivePrefix={arXiv}


Bibliografie


- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- https://chat.lmsys.org/
- https://huggingface.co/spaces/lmsys/chatbot-arena
- https://chat.lmsys.org/?leaderboard
- https://twitter.com/lmsysorg?lang=de
- https://lmsys.org/blog/2023-05-03-arena/
- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard/tree/main
- https://www.linkedin.com/posts/adityasudhakar_lmsys-chatbot-arena-leaderboard-a-hugging-activity-7135077479077076993-8iE6

Was bedeutet das?