Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Large Language Models (LLMs) hat zu einer neuen Generation agentischer Anwendungen geführt, die komplexe, mehrstufige Interaktionen mit Benutzern und der Umgebung ermöglichen. Diese "agentischen Systeme" sind nicht nur in der Lage, Anfragen zu verstehen, sondern auch Aktionen auszuführen, zu planen und Feedback zu verarbeiten. Beispiele hierfür reichen von assistierenden Chatbots bis hin zu autonomen Systemen, die Werkzeuge nutzen und auf Umgebungsdaten reagieren. Doch mit der zunehmenden Verbreitung dieser Systeme in realen Anwendungen entstehen auch erhebliche Herausforderungen bei deren kontinuierlicher Verbesserung und Wartung nach der initialen Bereitstellung.
Ein zentrales Problem bei der Optimierung von LLM-basierten Agenten ist die Analyse ihrer Interaktionsverläufe, auch Trajektorien genannt. Diese Trajektorien sind oft voluminös und nicht-deterministisch, was bedeutet, dass selbst bei identischen Startbedingungen unterschiedliche Verläufe entstehen können. Eine manuelle Überprüfung jeder einzelnen Trajektorie durch menschliche Experten ist zeitaufwendig und kostenintensiv. Auch der Einsatz zusätzlicher LLMs zur Bewertung dieser Verläufe erweist sich in der Praxis als zu teuer und langsam, insbesondere im grossen Massstab. Dies führt zu einer Lücke zwischen den umfangreichen Verhaltensdaten, die von Agenten generiert werden, und den Methoden zur Präferenzlernen, die für die Verbesserung der Modelle unerlässlich sind.
Traditionell verlassen sich Entwickler oft auf die manuelle Inspektion von Trajektorien, um Fehlerursachen zu identifizieren und Prompt- oder Tool-Definitionen anzupassen. Diese Methode ist jedoch nicht skalierbar. Agenten können flüssige und freundliche Konversationen führen, während sie gleichzeitig auf Ausführungsebene katastrophal versagen. Zudem ist es schwierig, zuverlässige Indikatoren für unproduktive Schleifen oder frustrierte Benutzer zu finden.
Obwohl "LLM-as-a-judge"-Ansätze vielversprechend sind und in strukturierten Aufgaben eine hohe Übereinstimmung mit menschlichen Präferenzen zeigen, sind sie für die Bewertung jeder einzelnen Trajektorie in einem Produktionssystem zu kostspielig. Frühere Arbeiten zur Dialogqualität, die automatische Qualitätsindikatoren aus Konversationsmerkmalen ableiten, sind oft nicht direkt auf agentische Systeme übertragbar, da diese sowohl eine Diskurs- als auch eine Ausführungsebene umfassen.
Um diese Herausforderungen zu adressieren, wurde ein leichtgewichtiges, signalbasiertes Framework namens "Signals" vorgeschlagen. Dieses Framework zielt darauf ab, informative Trajektorien für die nachgelagerte Analyse und Optimierung zu identifizieren, ohne dabei die Online-Verhaltensweise des Agenten zu beeinflussen oder kostspielige Modellaufrufe zu erfordern. Die Kernidee besteht darin, aus Live-Interaktionen "Signale" zu generieren – deskriptive Marker wiederkehrender Verhaltensmuster –, die als strukturierte Attribute an die Trajektorien angehängt werden.
Das Framework organisiert diese Signale in einer grobkörnigen Taxonomie, die drei Hauptkategorien umfasst:
Diese Signale werden aus der natürlichen Sprache zwischen Benutzer und Agent berechnet und spiegeln wider, wie sich die Interaktion auf der Diskursebene entwickelt. Sie sind lernrelevant, da sie Erfolgs- und Fehlermodi aufzeigen, die für Benutzer direkt erkennbar sind.
Diese Signale werden aus strukturierten Laufzeitereignissen abgeleitet, die vom internen Kontrollkreislauf des Agenten ausgegeben werden. Sie sind modalitätsunabhängig, deterministisch und spiegeln das Entscheidungsverhalten des Agenten wider.
Umweltsignale erfassen Fehler und Einschränkungen, die aus dem umgebenden System resultieren, nicht aus der internen Politik oder dem Denken des Agenten. Sie sind für die Beobachtbarkeit und Diagnose unerlässlich, aber nicht als Trainingsüberwachung geeignet.
Die Erkennung von Interaktionssignalen erfolgt mittels leichter Normalisierung und interpretierbarer, fehlertoleranter Abgleiche von Benutzerbeiträgen. Fehlausrichtung, Desengagement und Zufriedenheit werden hauptsächlich durch phrasenbasierte Hinweise ausgelöst, ergänzt durch lokale Ähnlichkeitsprüfungen. Stagnation wird durch einfache Diskurs-Heuristiken erkannt, die Wiederholung und Ineffizienz zusammenfassen. Ausführungsfehler werden durch die Klassifizierung nicht voranschreitender Tool-Ergebnisse und deren Verknüpfung mit der auslösenden Aktion detektiert. Ausführungsschleifen werden mittels Sequenzanalyse über Aufrufströme identifiziert, die wiederholte Aufrufe mit identischen oder systematisch variierenden Eingaben erkennen. Erschöpfung wird aus Tool-Beobachtungen durch die Identifizierung externer Fehler- und Ressourcenlimit-Indikatoren in Systemausgaben erkannt.
Die Wirksamkeit des "Signals"-Frameworks wurde in einer kontrollierten Anmerkungsstudie auf dem τ-bench-Benchmark evaluiert, der Multiturn-Konversationen zwischen simulierten Benutzern und Tool-ausgestatteten Agenten in zwei Domänen (Fluggesellschaft und Einzelhandel) emuliert. Ziel war es, zu überprüfen, ob signalbasiertes Sampling einen höheren Anteil entwicklerinformativer Trajektorien liefert als Basisstrategien, und dies bei einem festen Annotationsbudget.
Es wurden drei Sampling-Methoden verglichen, wobei jede 100 Trajektorien zog:
Drei erfahrene Annotatoren bewerteten unabhängig voneinander alle 300 Trajektorien hinsichtlich ihrer Informativität für Entwickler und dem Hauptgrund für die Informativität. Die primäre Metrik war die Informativitätsrate: der Anteil der als entwicklerinformativ eingestuften Trajektorien.
Das signalbasierte Sampling erreichte die höchste Informativitätsrate von 82,0 %. Im Vergleich dazu erreichte das heuristische Sampling 74,0 % und das zufällige Sampling lediglich 54,0 %. Dies bedeutet, dass etwa vier von fünf vom signalbasierten Sampling ausgewählten Trajektorien nützliche diagnostische oder verhaltensbezogene Hinweise lieferten. Der Unterschied zwischen signalbasiertem und zufälligem Sampling war statistisch hochsignifikant.
Bei einem festen Budget von 100 Annotationen lieferte das signalbasierte Sampling 82 informative Trajektorien, verglichen mit 74 beim heuristischen und 54 beim zufälligen Sampling. Dies entspricht einem 1,52-fachen Effizienzgewinn pro informativer Trajektorie gegenüber der unvoreingenommenen Baseline.
Die Analyse, stratifiziert nach dem Erfolg (binäre Belohnung) der Trajektorien, zeigte, dass das heuristische Sampling überwiegend fehlgeschlagene Trajektorien (70 %) auswählte, während das signalbasierte Sampling eine ausgewogenere Mischung (52 % fehlgeschlagen) zog. Insbesondere bei erfolgreichen Trajektorien, die dennoch informative Muster wie Richtlinienverstösse oder ineffiziente Tool-Nutzung enthielten, identifizierte das signalbasierte Sampling deutlich mehr informative Fälle (66,7 %) als das heuristische (50,0 %) oder zufällige (41,3 %) Sampling. Dies bestätigt, dass "Signals" echte Informativitätsgewinne pro Trajektorie liefert und nicht nur offensichtliche Fehler überproportional erfasst.
Die Verteilung der annotierten Gründe für informative Trajektorien blieb über alle drei Strategien hinweg stabil, was darauf hindeutet, dass das Signal-Framework die Art der aufgedeckten Probleme nicht verzerrt, sondern lediglich mehr davon identifiziert. Zudem zeigte sich die Überlegenheit des signalbasierten Samplings besonders in komplexeren Domänen wie dem Einzelhandel, wo es den grössten marginalen Wert lieferte.
Obwohl das "Signals"-Framework vielversprechende Ergebnisse liefert, gibt es gewisse Einschränkungen. Die Experimente wurden auf einem Benchmark mit LLM-simulierten Benutzern durchgeführt, was die Variabilität realer Desengagement- und Zufriedenheitsmuster möglicherweise unterrepräsentiert. Die Taxonomie ist zudem grobkörnig und verhaltensbezogen; sie erfasst keine semantische Korrektheit oder domänenspezifische Richtlinienverstösse. Trajektorien, die sprachlich flüssig, aber faktisch falsch sind, werden vom aktuellen Framework möglicherweise nicht erfasst. Zukünftige Arbeiten könnten die Integration modellbasierter Detektoren oder hybride Architekturen in Betracht ziehen, um die Erkennungsgenauigkeit für subtilere Muster zu verbessern.
Das "Signals"-Framework stellt einen bedeutenden Fortschritt in der effizienten Analyse und Optimierung agentischer Systeme dar. Durch die Bereitstellung eines leichtgewichtigen, signalbasierten Ansatzes für das Triage von Interaktionstrajektorien ermöglicht es Entwicklern, informative Verläufe gezielter zu identifizieren und somit den Prozess der Datenerfassung und Modellverbesserung erheblich zu beschleunigen. Die Fähigkeit, relevante Informationen ohne teure Modellaufrufe zu gewinnen, macht dieses Framework besonders praktikabel für den Einsatz in realen Produktionsumgebungen. Dies ebnet den Weg für die Konstruktion hochwertiger Präferenzdaten und die post-deployment Optimierung von LLM-basierten Agenten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen