Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Evaluierung von Sprachagenten in Unternehmensumgebungen stellt eine komplexe Herausforderung dar. Systeme, die in einer Domäne hervorragend funktionieren, können in einer anderen aufgrund unterschiedlicher Vokabulare, Workflow-Komplexitäten und Benutzererwartungen an ihre Grenzen stoßen. Vor diesem Hintergrund wurde EVA-Bench entwickelt, ein umfassendes Framework zur End-to-End-Evaluierung von konversationellen Sprachagenten. Die jüngste Veröffentlichung, EVA-Bench 2.0, erweitert diesen Ansatz signifikant und bietet eine breitere und tiefere Grundlage für die Bewertung dieser Technologien.
Mit der Einführung von EVA-Bench 2.0 wird der Anwendungsbereich der Evaluierung von Sprachagenten erheblich erweitert. Die Plattform, die ursprünglich eine einzige Unternehmensdomäne abdeckte, umfasst nun drei kritische Bereiche:
Diese Erweiterung führt zu einer bemerkenswerten Zunahme der Testabdeckung: insgesamt 213 Evaluierungsszenarien und 121 Tools stehen nun zur Verfügung, was einer Vervierfachung der Szenarien gegenüber der ersten Version entspricht. Die Szenarien wurden sorgfältig ausgewählt, um realistische und herausfordernde Situationen widerzuspiegeln, die Sprachagenten in der Praxis bewältigen müssen.
Um die Relevanz und Fairness des Benchmarks zu gewährleisten, wurden alle Szenarien mit führenden Sprachmodellen wie OpenAI GPT-5.4, Google Gemini 3.1 Pro und Anthropic Claude Opus 4.6 validiert. Dies stellt sicher, dass der Benchmark anspruchsvoll, aber lösbar ist. Alle drei Datasets sind quelloffen und über die Hugging Face datasets-Bibliothek verfügbar, was Entwicklern und Forschern den einfachen Zugang und die Integration in eigene Projekte ermöglicht.
Die Entwicklung der EVA-Bench-Datasets folgte fünf zentralen Designprinzipien, die darauf abzielen, die Qualität und Anwendbarkeit der Evaluierung zu maximieren:
Die Szenarien werden mittels SyGra, einer graphenbasierten Pipeline zur synthetischen Datengenerierung, erstellt, wobei GPT-5.4 als Kerntechnologie dient. Jedes Szenario umfasst drei konsistente Komponenten, die gemeinsam generiert werden, um Inkonsistenzen zu vermeiden:
Diese gemeinsame Generierung ist von entscheidender Bedeutung, da die drei Komponenten stark voneinander abhängen. Unabhängige Generierung könnte zu Inkonsistenzen führen, die das Evaluierungsergebnis verfälschen würden. Nach jeder Generierung durchläuft das Szenario eine mehrstufige Validierungsschleife, die strukturelle Prüfungen, LLM-basierte Konsistenzprüfungen und die Überprüfung der vollständigen Gesprächsverläufe auf Einhaltung der Richtlinien und Aktionssequenzen umfasst.
Alle generierten Szenarien wurden manuell überprüft, um sicherzustellen, dass Richtlinien konsistent angewendet, Benutzerziele präzise definiert und erwartete Endzustände konsistent sind. Adversarische Szenarien wurden ebenfalls auf korrekte Spezifikation und eindeutige Richtlinienverstöße hin überprüft.
Zusätzlich wurden drei führende Modelle (OpenAI GPT-5.4, Google Gemini 3.1 Pro und Anthropic Claude Opus 4.6) mit einer textbasierten Version jedes Szenarios getestet. Bei Szenarien, in denen ein Modell keine Aufgabe abschließen konnte, wurde manuell untersucht, ob dies auf einen Modellfehler oder ein Problem im Dataset zurückzuführen war. Fehlerhafte Datensätze wurden korrigiert oder entfernt, um sicherzustellen, dass alle ausgewählten Beispiele von mindestens einem der Modelle lösbar sind.
Die neuen Datasets Enterprise ITSM und Healthcare HRSD wurden entwickelt, um unterschiedliche Herausforderungen für Sprachagenten zu adressieren. Beide erfordern eine genaue Transkription strukturierter benannter Entitäten über Sprache, unterscheiden sich jedoch in ihren primären Herausforderungen und der Anzahl der Tools.
Der Bereich Enterprise ITSM fokussiert sich auf die Komplexität technischer Supportanfragen. Hierbei müssen Sprachagenten in der Lage sein, verschiedene IT-Probleme zu identifizieren, Lösungen vorzuschlagen und entsprechende Aktionen in IT-Systemen auszuführen. Dies erfordert ein tiefes Verständnis von Fachterminologie und die Fähigkeit, über verschiedene Schnittstellen hinweg zu agieren.
Healthcare HRSD stellt Sprachagenten vor die Herausforderung, sensible und oft komplexe Anfragen im Personalwesen des Gesundheitssektors zu bearbeiten. Dies beinhaltet die Navigation durch umfassende Richtlinien, die Einhaltung von Datenschutzbestimmungen und die korrekte Anwendung von spezifischen Gesundheits- und Sozialleistungen. Die Genauigkeit und das Einfühlungsvermögen des Agenten sind hier von besonderer Bedeutung.
Die aktuelle Evaluierung konzentriert sich auf Englisch. Um jedoch eine realistische Einschätzung der Leistung von Sprachagenten in einem globalen Kontext zu ermöglichen, wird EVA-Bench um mehrsprachige Unterstützung erweitert. Dies beinhaltet nicht nur die Anpassung der Gesprächssprache, sondern auch die Lokalisierung von Eigennamen, Adressen und Telefonnummern sowie die Anpassung der Evaluierungspipeline an die jeweilige Sprache und Kultur. Ziel ist es, ein authentisches Benutzererlebnis in der gewählten Sprache zu bieten und eine zuverlässige Bewertung über verschiedene Sprachen hinweg zu ermöglichen.
EVA-Bench ist vollständig quelloffen und unter der MIT-Lizenz verfügbar. Das Dataset, das Evaluierungsframework und das Leaderboard sind öffentlich zugänglich. Entwickler und Forscher können das Dataset von der Hugging Face Dataset-Seite herunterladen und einzelne Datensätze über die Hugging Face datasets-Bibliothek laden.
from datasets import load_dataset
# Airline Customer Service Management (CSM) — 50 scenarios
airline = load_dataset("ServiceNow-AI/eva-bench", "airline", split="test")
# Enterprise IT Service Management (ITSM) — 80 scenarios
itsm = load_dataset("ServiceNow-AI/eva-bench", "itsm", split="test")
# Healthcare HR Service Delivery (HRSD) — 83 scenarios
hrsd = load_dataset("ServiceNow-AI/eva-bench", "medical", split="test")
Jeder Datensatz enthält ein strukturiertes Benutzerziel, eine initiale Szenariodatenbank und den erwarteten finalen Datenbankzustand, was alles Notwendige für eine vollständige Bot-zu-Bot-Evaluierung bereitstellt. Weitere Informationen zur Einrichtung, zum Code und zu den Richtlinien für Beiträge finden Sie im GitHub-Repository.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen