Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
KI-Suchagenten stehen zunehmend im Fokus der Forschung, da sie komplexe Informationsbeschaffungsaufgaben übernehmen sollen, die Abruf und logisches Schlussfolgern über mehrere Schritte hinweg erfordern. Eine aktuelle Untersuchung von Forschern von Tencent Hunyuan und der Tsinghua University, die in einem neuen Benchmark namens DiscoBench vorgestellt wird, beleuchtet jedoch eine kritische Schwachstelle: Das Versagen von KI-Suchagenten liegt demnach weniger im eigentlichen Suchprozess, sondern vielmehr in der Unfähigkeit, präzisierende Fragen an den Benutzer zu stellen, wenn Anfragen mehrdeutig sind. Dies führt dazu, dass wiederholtes Suchen ohne Klärung oft schlechtere Ergebnisse erzielt als ein direktes Raten.
Bisherige Benchmarks wie GAIA oder BrowseComp gingen oft davon aus, dass Benutzeranfragen vollständig und eindeutig formuliert sind. Die Realität zeigt jedoch, dass Anfragen in der Praxis häufig vage, unzureichend spezifiziert oder sogar faktisch inkorrekt sind. In komplexen Suchszenarien kann sich eine solche Mehrdeutigkeit entlang mehrstufiger Schlussfolgerungsketten fortpflanzen und den Agenten auf eine falsche Suchpfad führen. Wenn ein Modell beispielsweise zu Beginn einer Recherche eine falsche Entität auswählt, wird es den gesamten Prozess mit korrekter Syntax fortsetzen, das eigentliche Ziel jedoch verfehlen.
DiscoBench wurde entwickelt, um diese Lücke zu schließen. Der Benchmark testet, ob Sprachmodelle in der Lage sind, während tiefer Suchketten selbstständig Mehrdeutigkeiten zu erkennen, gezielte Nachfragen zu stellen und ihren Recherchepfad entsprechend anzupassen. Der Benchmark umfasst 211 Aufgaben mit insgesamt 463 Mehrdeutigkeitspunkten aus elf Wissensbereichen, darunter Videospiele, Sport, Musik, Film, Wissenschaft und Politik. Jede Aufgabe ist in mehrere Checkpoints unterteilt. An jedem Checkpoint kann der Agent zwischen drei Aktionen wählen: Weitersuchen, den Benutzer um Klärung bitten oder eine Antwort geben.
Die Forscher identifizierten vier Haupttypen von Mehrdeutigkeit:
Ein wichtiger Aspekt des Datensatzes ist, dass er hauptsächlich auf Chinesisch verfasst ist, um typische Suchmuster im chinesischsprachigen Web widerzuspiegeln. Wenn der Agent eine nützliche Nachfrage stellt, liefert ein LLM-basierter Benutzersimulator einen vordefinierten Hinweis, der die Suche eingrenzt. Alle Suchanfragen werden über die Agenten-Suchmaschine Tavily ausgeführt, wobei Gemini 3 Flash als Simulator dient.
Das Team testete elf Modelle, die in den letzten sechs Monaten veröffentlicht wurden, darunter Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, Doubao Seed 2.0 Pro, DeepSeek V4 Pro, Kimi K2.6, GLM 5.1, Qwen3.6 Max, MiniMax M2.7, MiMo v2.5 Pro und Hunyuan 3.0 Preview.
Ohne einen expliziten Hinweis auf mögliche Mehrdeutigkeiten erreichte Doubao Seed 2.0 Pro mit 43,1 Prozent die höchste End-to-End-Genauigkeit. Gemini 3.1 Pro folgte mit 40,8 Prozent, Claude Opus 4.7 mit 39,8 Prozent. Schwächere Modelle wie MiniMax M2.7 und Qwen3.6 Max erreichten lediglich 16,1 bzw. 12,3 Prozent.
Es zeigte sich eine Diskrepanz zwischen den Einzelschritt-Ergebnissen und der Gesamtgenauigkeit. Claude Opus 4.7 löste beispielsweise 57 Prozent der Checkpoints korrekt, erreichte aber nur 39,8 Prozent End-to-End-Genauigkeit. Dies deutet darauf hin, dass einzelne Forschungsschritte zwar funktionieren, eine einzige ungelöste Mehrdeutigkeit jedoch ausreicht, um die gesamte Kette zum Scheitern zu bringen.
Die Forscher untersuchten auch, wie sich die Leistung verändert, wenn der System-Prompt den Agenten explizit anweist, auf Mehrdeutigkeiten zu achten und bei Zweifeln eine Nachfrage zu stellen. Dieser "Guided"-Modus sollte die Obergrenze der erreichbaren Leistung aufzeigen, wenn Modelle nicht selbst herausfinden müssen, dass eine Frage unzureichend spezifiziert ist.
Im Durchschnitt über zehn Modelle stieg die End-to-End-Genauigkeit von 28,6 auf 33,7 Prozent. Die Erkennungs-F1-Rate sprang jedoch wesentlich stärker an, von 45,3 auf 64,9 Prozent. Der Hinweis half den Modellen hauptsächlich dabei, Mehrdeutigkeiten zu erkennen, jedoch nicht unbedingt dabei, die Recherche erfolgreich abzuschließen. Bei Claude Opus 4.7 sank die End-to-End-Genauigkeit sogar leicht unter dem geführten Prompt, trotz einer höheren Checkpoint-Passrate.
Die Analyse des Verhaltensprofils zeigte, was Agenten an mehrdeutigen Checkpoints tatsächlich tun. Modelle, die zuerst suchen und dann eine Nachfrage stellen ("SearchThenAsk"), erreichten eine Erfolgsquote von durchschnittlich 93,4 Prozent. Direktes Raten ohne Nachfrage ("DirectGuess") sank auf 56,5 Prozent. Modelle, die wiederholt suchen, aber trotzdem raten, anstatt nachzufragen ("SearchHeavyGuess"), schnitten mit 51,9 Prozent noch schlechter ab. Die wiederholten Suchanfragen deuten laut den Autoren darauf hin, dass das Modell die Mehrdeutigkeit bereits erkannt hatte, diese aber nie in eine Benutzerinteraktion umwandelte.
Dieses Muster erklärt auch, warum mehr Tool-Calls nicht zu besseren Ergebnissen führen. Claude Opus 4.7 sucht häufiger als die meisten anderen Modelle, liegt aber bei der Genauigkeit immer noch hinter Gemini 3.1 Pro und Doubao Seed 2.0 Pro. Härteres Suchen hilft nicht, wenn der Agent nie die richtige Frage stellt.
Die Erkennungsfähigkeit und die Qualität der Fragen korrelieren nicht immer miteinander. Qwen3.6 Max erreichte beispielsweise nur eine Erkennungs-F1-Rate von 16 Prozent und stellte im neutralen Setting durchschnittlich 0,07 Nachfragen pro Aufgabe. Wenn es jedoch eine Frage stellte, waren 94,7 Prozent dieser Fragen faktisch korrekt und 89,5 Prozent führten zu einem Fortschritt. MiniMax M2.7 fragte wesentlich häufiger nach, erreichte aber nur eine Erfolgsquote von 60,7 bis 66,5 Prozent.
Ein nützlicher Recherche-Agent benötigt beide Fähigkeiten: zu erkennen, wann eine Nachfrage erforderlich ist, und diese so zu formulieren, dass die Antwort die Suche tatsächlich voranbringt.
Nach Art der Mehrdeutigkeit aufgeschlüsselt, sind faktische Fehler am einfachsten zu erkennen, da sie direkte Widersprüche während der Recherche erzeugen. Entitäts- und Kriterienmehrdeutigkeiten sind schwieriger, da mehrere plausible Kandidaten oder unklare Bewertungsstandards koexistieren können, ohne dass ein offensichtlicher Widerspruch auftritt.
Ohne Zugriff auf Suchwerkzeuge brechen die getesteten Modelle ein. Doubao Seed 2.0 Pro fällt von 43,1 auf 2,4 Prozent, Gemini 3.1 Pro von 40,8 auf 19,9 Prozent. DiscoBench kann nicht allein aus dem gespeicherten Modellwissen gelöst werden. Gleichzeitig schneiden Modelle deutlich besser ab, wenn Mehrdeutigkeiten aus den Fragen entfernt werden, wobei die Genauigkeit je nach Modell um 26,8 bis 40,2 Punkte steigt. Die Autoren schlussfolgern, dass zukünftige Suchagenten Mechanismen benötigen, die Suchunsicherheiten in Benutzerinteraktionen umwandeln, zusätzlich zu ihren Abruf- und Schlussfolgerungsfähigkeiten.
Andere aktuelle Studien bestätigen, dass aktuelle Suchagenten grundlegende Schwächen in ihrer Recherchemethode aufweisen. Eine Studie ergab, dass führende Modelle bei Benchmarks wie BrowseComp oft nur das bestätigen, was sie bereits wissen. Auf dem speziell entwickelten LiveBrowseComp, das Fakten jenseits des Wissensstands der Modelle enthielt, fielen alle Systeme um 25 bis 40 Punkte ab. Der Halluhard-Benchmark zeigte auch, dass Claude Opus 4.5 mit Websuche in etwa 30 Prozent der Fälle halluziniert, hauptsächlich bei der Überprüfung des Inhalts zitierter Quellen.
Anthropic hat dieses Problem in seinem neuesten Modell-Update, Claude Opus 4.8, angegangen. Das Modell soll Unsicherheiten häufiger kennzeichnen und lässt Fehler im eigenen Code etwa viermal seltener unkommentiert als sein Vorgänger. Perplexity verfolgt einen anderen Ansatz mit "Search as Code", bei dem Modelle ihre Such-Workflows als Python-Programme schreiben können, anstatt eine vorgefertigte API aufzurufen. Diese Entwicklungen zeigen, dass die Branche die Bedeutung der Interaktion und Klärung bei mehrdeutigen Anfragen zunehmend erkennt.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen