Chatbot Arena: Benchmarking von Sprachmodellen neu definiert

Kategorien:

No items found.

Freigegeben:

July 11, 2024

kostenlos testen KI für Unternehmen Termin buchen

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

Chatbot Arena: Ein Meilenstein im Benchmarking von Sprachmodellen

‍

Einleitung

Im Zuge des technologischen Fortschritts der letzten Jahre hat die Entwicklung von großen Sprachmodellen (Large Language Models, LLMs) enorm an Bedeutung gewonnen. Insbesondere nach dem Erfolg von ChatGPT haben zahlreiche Open-Source-Modelle wie Alpaca und Vicuna, die auf LLaMA basieren, sowie OpenAssistant und Dolly, die auf Pythia basieren, die Bühne betreten. Diese Modelle bieten wertvolle Unterstützung bei der Beantwortung von Benutzeranfragen. Doch trotz der ständigen Veröffentlichung neuer Modelle steht die Gemeinschaft vor der Herausforderung, diese effektiv zu benchmarken. Hier kommt die Chatbot Arena ins Spiel.

Die Herausforderung des Benchmarkings

Das Benchmarking von LLMs ist eine komplexe Aufgabe, da die Probleme oft offen sind und es schwierig ist, die Qualität der Antworten automatisch zu bewerten. In vielen Fällen ist eine menschliche Bewertung auf Basis von paarweisen Vergleichen erforderlich. Ein effektives Benchmark-System sollte folgende Eigenschaften haben:
- Skalierbarkeit: Das System sollte in der Lage sein, eine große Anzahl von Modellen zu skalieren.
- Inkrementalität: Neue Modelle sollten mit relativ wenigen Tests bewertet werden können.
- Einzigartige Ordnung: Das System sollte eine eindeutige Reihenfolge für alle Modelle bereitstellen.

Einführung der Chatbot Arena

Um diesen Herausforderungen zu begegnen, wurde die Chatbot Arena ins Leben gerufen. Diese Plattform ermöglicht anonyme, zufällige Kämpfe zwischen verschiedenen Sprachmodellen in einer Crowdsourcing-Manier. Die Chatbot Arena verwendet das Elo-Bewertungssystem, das auch im Schach und anderen Wettkampfspielen weit verbreitet ist. Dieses System bietet die gewünschten Eigenschaften für ein effektives Benchmarking.

Datensammlung und erster Überblick

Die Arena wurde vor einer Woche gestartet und hat seitdem 4.700 gültige anonyme Stimmen gesammelt. Benutzer können mit zwei anonymen Modellen gleichzeitig chatten und für das Modell abstimmen, das sie für besser halten. Nach der Abstimmung werden die Modellnamen offengelegt, und die Benutzer können entweder weiter chatten oder einen neuen Kampf beginnen. Die Plattform protokolliert alle Benutzerinteraktionen, und in der Analyse werden nur die Stimmen verwendet, bei denen die Modellnamen verborgen sind.

Erste Ergebnisse

Bisher wurden folgende Modelle bewertet:
- Vicuna-13B: Ein Chat-Assistent, der aus LLaMA auf Basis von Benutzerkonversationen feingetunt wurde.
- Koala-13B: Ein Dialogmodell für akademische Forschung.
- Oasst-Pythia-12B: Ein Open Assistant für alle von LAION.
- Alpaca-13B: Ein Modell, das aus LLaMA auf Grundlage von Demonstrationen zur Befolgung von Anweisungen feingetunt wurde.

Das Elo-Bewertungssystem

Das Elo-Bewertungssystem berechnet die relative Fähigkeit der Spieler. Der Unterschied in den Bewertungen zwischen zwei Spielern dient als Prädiktor für das Ergebnis eines Spiels. Das System funktioniert gut für unsere Zwecke, da wir mehrere Modelle haben und paarweise Kämpfe zwischen ihnen durchführen.

Zukünftige Pläne

Die Betreiber der Chatbot Arena planen, folgende Punkte zu bearbeiten:
- Hinzufügen weiterer geschlossener Modelle (z.B. ChatGPT-3.5, ChatGPT-4 und Claude-v1).
- Hinzufügen weiterer Open-Source-Modelle.
- Periodische Aktualisierungen der Ranglisten (z.B. monatlich).
- Implementierung besserer Sampling-Algorithmen, Turniermechanismen und Serviersysteme zur Unterstützung einer größeren Anzahl von Modellen.
- Bereitstellung feingranularer Ranglisten für verschiedene Aufgabentypen.

Aufruf zur Teilnahme

Die gesamte Gemeinschaft ist eingeladen, an dieser Benchmarking-Initiative teilzunehmen, indem sie ihre Modelle und Stimmen für die anonymen Modelle, die bessere Antworten liefern, beisteuern. Besuchen Sie https://arena.lmsys.org, um für bessere Modelle abzustimmen. Wenn Sie ein bestimmtes Modell in der Arena sehen möchten, können Sie dieser Anleitung folgen, um uns bei der Hinzufügung zu unterstützen.

Anerkennung

Ein besonderer Dank geht an die Mitglieder des Vicuna-Teams für wertvolles Feedback und an das MBZUAI für die Bereitstellung von Computerressourcen. Ebenso danken wir Tianjun Zhang und Eric Wallace für ihre aufschlussreichen Diskussionen.

Links

- Demo: https://arena.lmsys.org
- Leaderboard: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- GitHub: https://github.com/lm-sys/FastChat

Zitierung

Bitte zitieren Sie die folgenden Arbeiten, wenn Sie unsere Arbeit nützlich finden:
@misc{chiang2024chatbot,
title={Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference},
author={Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez und Ion Stoica},
year={2024},
eprint={2403.04132},
archivePrefix={arXiv}

‍
Bibliografie

‍
- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- https://chat.lmsys.org/
- https://huggingface.co/spaces/lmsys/chatbot-arena
- https://chat.lmsys.org/?leaderboard
- https://twitter.com/lmsysorg?lang=de
- https://lmsys.org/blog/2023-05-03-arena/
- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard/tree/main
- https://www.linkedin.com/posts/adityasudhakar_lmsys-chatbot-arena-leaderboard-a-hugging-activity-7135077479077076993-8iE6

Mindverse vs ChatGPT Plus Widget

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

✓

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen

✓

Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning

✓

Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)

✓

Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.