Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von künstlicher Intelligenz hat in den letzten Jahren beeindruckende Fortschritte gemacht, insbesondere im Bereich der konversationellen Systeme. Sprachagenten, die in der Lage sind, komplexe Aufgaben zu verstehen und zu bearbeiten, werden zunehmend in verschiedenen Branchen eingesetzt. Doch mit der steigenden Komplexität dieser Systeme wächst auch die Herausforderung, ihre Leistung umfassend und objektiv zu bewerten. Traditionelle Bewertungsansätze konzentrierten sich oft auf isolierte Komponenten oder einzelne Aspekte der Leistung, was ein unvollständiges Bild der tatsächlichen Nutzererfahrung lieferte. Hier setzt das kürzlich vorgestellte EVA-Framework (Evaluation of Voice Agents) an, ein umfassendes End-to-End-Bewertungssystem, das darauf abzielt, Sprachagenten ganzheitlich zu analysieren.
Konversationelle Sprachagenten stehen vor einer doppelten Herausforderung: Sie müssen einerseits die gestellte Aufgabe korrekt und zuverlässig erledigen (Genauigkeit) und andererseits eine natürliche, prägnante und angemessene Konversationserfahrung bieten (Nutzererlebnis). Diese beiden Ziele sind eng miteinander verknüpft. Ein falsch verstandener Bestätigungscode kann beispielsweise selbst die beste logische Schlussfolgerung eines Large Language Models (LLM) zunichtemachen. Eine Flut von Optionen kann einen Anrufer überfordern, der gesprochene Inhalte nicht überfliegen kann, und verzögerte Antworten können trotz korrekter Sachbearbeitung in der Praxis unbrauchbar sein. Bisherige Bewertungsrahmen betrachteten diese Aspekte oft getrennt, indem sie entweder den Aufgabenerfolg oder die Dynamik der Konversation bewerteten, jedoch nicht beides gemeinsam.
Die Notwendigkeit eines Frameworks, das sowohl die Genauigkeit als auch das Nutzererlebnis gemeinsam erfasst, ist offensichtlich. Es geht nicht nur darum, ob eine Aufgabe erfolgreich abgeschlossen wurde, sondern auch darum, wie der Agent während des gesamten Prozesses kommunizierte – präzise, kurz und natürlich. Zudem ist es entscheidend, zu verstehen, wie diese Dimensionen in realistischen Einsatzbedingungen miteinander interagieren und möglicherweise Kompromisse erfordern.
EVA ist ein End-to-End-Bewertungsrahmen, der speziell für konversationelle Sprachagenten entwickelt wurde. Es bewertet vollständige, mehrstufige gesprochene Konversationen unter Verwendung einer realistischen Bot-zu-Bot-Architektur. Das Framework liefert zwei hochrangige Scores: EVA-A (Accuracy – Genauigkeit) und EVA-X (Experience – Erfahrung), und ist darauf ausgelegt, Fehlerursachen entlang jeder Dimension aufzudecken. EVA ist der erste Ansatz, der Aufgabenerfolg und Konversationserlebnis gemeinsam bewertet.
EVA simuliert mehrstufige gesprochene Konversationen über Live-Audio, bei denen der Agent geeignete Tools aufrufen, aufgabenspezifische Richtlinien einhalten und einen deterministisch überprüfbaren Endzustand erreichen muss. Die Bot-zu-Bot-Audio-Architektur von EVA besteht aus fünf Kernkomponenten:
Jeder Testfall (Szenario) im EVA-Framework ist ein Bewertungsdatensatz, der so strukturiert ist, dass Tests reproduzierbar sind. Dies umfasst:
Die aktuelle Version von EVA wird mit einem synthetischen Fluggesellschafts-Datensatz von 50 Szenarien bereitgestellt. Diese Szenarien decken Bereiche wie Umbuchungen, Stornierungen, Gutscheine und Same-Day-Standby ab. Sie sind darauf ausgelegt, zeitliche Argumentation, Richtlinienbefolgung, Constraint-Satisfaction und die Handhabung benannter Entitäten zu testen.
EVA bewertet Sprachagenten entlang der beiden fundamentalen Dimensionen EVA-A (Genauigkeit) und EVA-X (Erfahrung). Zusätzlich umfasst es eine Reihe von Diagnosemetriken. Diese dienen nicht dem direkten Vergleich oder der Rangfolge von Modellen, sondern bieten detaillierte Einblicke in die Ursachen der Modellbewertung und helfen, spezifische Fehlerursachen (z.B. ASR-Fehler, Sprachsynthesefehler) zu identifizieren. Es werden "pass@k" (die Wahrscheinlichkeit, dass mindestens einer von k Läufen erfolgreich ist) und "pass^k" (die Wahrscheinlichkeit, dass alle k Läufe erfolgreich sind) über drei Versuche pro Szenario (k=3) berichtet, um sowohl Spitzenleistung als auch Verhaltenskonsistenz zu erfassen.
Für die Bewertung werden zwei Methoden eingesetzt:
Die bloße Aufgabenerfüllung ist ein notwendiges, aber unzureichendes Maß für die Genauigkeit. Ein Agent kann den korrekten Endzustand erreichen, während er eine Richtliniendetail erfindet, einen Bestätigungscode falsch vorliest oder eine Flugnummer mitten in der Konversation halluziniert. Diese Fehler sind für eine binäre Pass/Fail-Prüfung unsichtbar, schaden den Benutzern jedoch direkt. EVA-A misst daher drei Dimensionen der Genauigkeit:
Das Timing der Gesprächsübernahme ist wichtig, aber es erzählt nur einen Teil der Geschichte. Ein Agent kann ein perfektes Timing haben, während er einen Anrufer mit einer Wand von gesprochenen Optionen überwältigt, die dieser nicht überfliegen kann, oder wiederholt nach bereits gegebenen Informationen fragt. Diese Fehler beeinträchtigen das Erlebnis, ohne dass eine falsch getimte Antwort vorliegt. EVA-X misst daher drei Dimensionen der Erfahrung:
Die Bewertung von 20 Systemen – sowohl proprietäre als auch Open-Source-Lösungen, Kaskaden- und Audio-native-Systeme – zeigte einen konsistenten Zielkonflikt zwischen Genauigkeit und Nutzererlebnis. Agenten, die bei der Aufgabenerfüllung gut abschnitten, lieferten tendenziell schlechtere Nutzererfahrungen und umgekehrt. Dieser Zielkonflikt war für Benchmarks, die nur den Aufgabenerfolg bewerten, unsichtbar. Keine einzelne Konfiguration dominierte beide Achsen, was bestätigt, dass Genauigkeit und Erlebnis gemeinsam gemessen werden müssen.
Zusätzlich wurde die Transkription benannter Entitäten als dominanter Fehlermodus identifiziert. Ein einziger falsch verstandener Buchstabe kann zu einem Authentifizierungsfehler und einem vollständigen Konversationsabbruch führen. Auch mehrstufige Arbeitsabläufe führten bei Agenten zu vorhersehbaren Fehlern. Das Umbuchung eines Fluges unter Beibehaltung von Zusatzleistungen – wie Sitzplätzen und Gepäck – erwies sich als die größte Komplexitätsherausforderung über alle Konfigurationen hinweg. Schließlich wurde festgestellt, dass für reale Anwendungsfälle eine zusätzliche Kalibrierung erforderlich ist. Die Lücke zwischen "pass@3" und "pass^3" war bei allen Konfigurationen erheblich. Selbst Agenten, die eine Aufgabe erledigen konnten, taten dies oft nicht konsistent, was für den Erfolg in der Praxis entscheidend ist.
Obwohl EVA eine robuste und umfassende Bewertung von konversationellen Sprachagenten ermöglicht, sind einige Einschränkungen des Frameworks, der Daten und der Metriken zu beachten:
Für die zukünftige Entwicklung des EVA-Frameworks sind mehrere Erweiterungen geplant. Im Bereich der Bewertung soll eine Bewertung der prosodischen Qualität (Aussprache, Rhythmus, Ausdruckskraft) hinzugefügt werden, da hier derzeit eine geringe Übereinstimmung zwischen LALM-as-Judge und menschlichen Urteilen besteht. Des Weiteren sind Robustheitstests unter rauschvollen Bedingungen, mit verschiedenen Akzenten, mehrsprachigen Benutzern und unterschiedlichem Sprecherverhalten vorgesehen, ebenso wie eine affektive Bewertung, wie Agenten auf Benutzerstress reagieren. Hinsichtlich der Daten werden zusätzliche Domänendatensätze entwickelt – jeweils mit unterschiedlichen Richtlinienstrukturen, benannten Entitätsprofilen und Konversationsdynamiken – sowie komplexere Szenarien, die zusammengesetzte Anfragen, mehrstufige Nachverfolgungen und längere Konversationserinnerungen umfassen.
Im Tooling-Bereich wird eine Anwendung zur Ergebnis- und Fehleranalyse veröffentlicht, die Fehler pro Metrik und Modell automatisch identifiziert, repräsentative Beispiele zur Untersuchung bereitstellt und strukturierte Zusammenfassungen der Stärken und Schwächen jedes Modells generiert. Schließlich ist geplant, die Rangliste kontinuierlich zu erweitern, um eine aktuelle Bewertung der Fähigkeiten von Sprachagenten im gesamten Feld zu ermöglichen.
Das EVA-Framework stellt einen wichtigen Schritt in der Entwicklung standardisierter und umfassender Bewertungsmethoden für konversationelle Sprachagenten dar. Es bietet eine fundierte Grundlage für die Analyse und Verbesserung dieser komplexen KI-Systeme und trägt dazu bei, deren Einsatz in der Praxis zuverlässiger und benutzerfreundlicher zu gestalten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen