Herausforderungen bei der Klärung mehrdeutiger Anfragen durch KI-Suchagenten

Kategorien:

No items found.

Freigegeben:

July 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

KI-Suchagenten scheitern bei mehrstufigen Suchaufgaben häufig nicht an der Informationsbeschaffung selbst, sondern daran, präzisierende Fragen zu stellen.
Ein neuer Benchmark namens DiscoBench zeigt, dass die meisten Modelle, selbst führende wie Claude Opus 4.7 oder Gemini 3.1 Pro, Schwierigkeiten haben, mehrdeutige Anfragen zu erkennen und zu klären.
Die Studie unterstreicht, dass wiederholtes Suchen ohne Klärung oft schlechtere Ergebnisse liefert als direktes Raten.
Die Fähigkeit, Mehrdeutigkeiten zu erkennen, und die Fähigkeit, präzise Fragen zu formulieren, sind zwei unterschiedliche Kompetenzen, die nicht immer korrelieren.
Zukünftige Suchagenten benötigen Mechanismen, die Suchunsicherheiten in eine Benutzerinteraktion umwandeln, zusätzlich zu ihren Abruf- und Schlussfolgerungsfähigkeiten.

KI-Suchagenten stehen zunehmend im Fokus der Forschung, da sie komplexe Informationsbeschaffungsaufgaben übernehmen sollen, die Abruf und logisches Schlussfolgern über mehrere Schritte hinweg erfordern. Eine aktuelle Untersuchung von Forschern von Tencent Hunyuan und der Tsinghua University, die in einem neuen Benchmark namens DiscoBench vorgestellt wird, beleuchtet jedoch eine kritische Schwachstelle: Das Versagen von KI-Suchagenten liegt demnach weniger im eigentlichen Suchprozess, sondern vielmehr in der Unfähigkeit, präzisierende Fragen an den Benutzer zu stellen, wenn Anfragen mehrdeutig sind. Dies führt dazu, dass wiederholtes Suchen ohne Klärung oft schlechtere Ergebnisse erzielt als ein direktes Raten.

Die Herausforderung mehrdeutiger Anfragen

Bisherige Benchmarks wie GAIA oder BrowseComp gingen oft davon aus, dass Benutzeranfragen vollständig und eindeutig formuliert sind. Die Realität zeigt jedoch, dass Anfragen in der Praxis häufig vage, unzureichend spezifiziert oder sogar faktisch inkorrekt sind. In komplexen Suchszenarien kann sich eine solche Mehrdeutigkeit entlang mehrstufiger Schlussfolgerungsketten fortpflanzen und den Agenten auf eine falsche Suchpfad führen. Wenn ein Modell beispielsweise zu Beginn einer Recherche eine falsche Entität auswählt, wird es den gesamten Prozess mit korrekter Syntax fortsetzen, das eigentliche Ziel jedoch verfehlen.

DiscoBench: Ein neuer Ansatz zur Bewertung

DiscoBench wurde entwickelt, um diese Lücke zu schließen. Der Benchmark testet, ob Sprachmodelle in der Lage sind, während tiefer Suchketten selbstständig Mehrdeutigkeiten zu erkennen, gezielte Nachfragen zu stellen und ihren Recherchepfad entsprechend anzupassen. Der Benchmark umfasst 211 Aufgaben mit insgesamt 463 Mehrdeutigkeitspunkten aus elf Wissensbereichen, darunter Videospiele, Sport, Musik, Film, Wissenschaft und Politik. Jede Aufgabe ist in mehrere Checkpoints unterteilt. An jedem Checkpoint kann der Agent zwischen drei Aktionen wählen: Weitersuchen, den Benutzer um Klärung bitten oder eine Antwort geben.

Vier Arten von Mehrdeutigkeit

Die Forscher identifizierten vier Haupttypen von Mehrdeutigkeit:

Entitätsmehrdeutigkeit: Eine Beschreibung kann auf mehrere Entitäten zutreffen.
Versions-/Zeitmehrdeutigkeit: Informationen beziehen sich auf verschiedene Zeiträume oder Versionen.
Kriterienmehrdeutigkeit: Es existieren mehrere gültige Ranking- oder Bewertungskriterien.
Faktische Ungenauigkeit: Die Anfrage enthält einen direkten sachlichen Fehler.

Ein wichtiger Aspekt des Datensatzes ist, dass er hauptsächlich auf Chinesisch verfasst ist, um typische Suchmuster im chinesischsprachigen Web widerzuspiegeln. Wenn der Agent eine nützliche Nachfrage stellt, liefert ein LLM-basierter Benutzersimulator einen vordefinierten Hinweis, der die Suche eingrenzt. Alle Suchanfragen werden über die Agenten-Suchmaschine Tavily ausgeführt, wobei Gemini 3 Flash als Simulator dient.

Leistung der Modelle: Unter 50 Prozent Genauigkeit

Das Team testete elf Modelle, die in den letzten sechs Monaten veröffentlicht wurden, darunter Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, Doubao Seed 2.0 Pro, DeepSeek V4 Pro, Kimi K2.6, GLM 5.1, Qwen3.6 Max, MiniMax M2.7, MiMo v2.5 Pro und Hunyuan 3.0 Preview.

Ohne einen expliziten Hinweis auf mögliche Mehrdeutigkeiten erreichte Doubao Seed 2.0 Pro mit 43,1 Prozent die höchste End-to-End-Genauigkeit. Gemini 3.1 Pro folgte mit 40,8 Prozent, Claude Opus 4.7 mit 39,8 Prozent. Schwächere Modelle wie MiniMax M2.7 und Qwen3.6 Max erreichten lediglich 16,1 bzw. 12,3 Prozent.

Es zeigte sich eine Diskrepanz zwischen den Einzelschritt-Ergebnissen und der Gesamtgenauigkeit. Claude Opus 4.7 löste beispielsweise 57 Prozent der Checkpoints korrekt, erreichte aber nur 39,8 Prozent End-to-End-Genauigkeit. Dies deutet darauf hin, dass einzelne Forschungsschritte zwar funktionieren, eine einzige ungelöste Mehrdeutigkeit jedoch ausreicht, um die gesamte Kette zum Scheitern zu bringen.

Die Rolle eines „Warn-Prompts“

Die Forscher untersuchten auch, wie sich die Leistung verändert, wenn der System-Prompt den Agenten explizit anweist, auf Mehrdeutigkeiten zu achten und bei Zweifeln eine Nachfrage zu stellen. Dieser "Guided"-Modus sollte die Obergrenze der erreichbaren Leistung aufzeigen, wenn Modelle nicht selbst herausfinden müssen, dass eine Frage unzureichend spezifiziert ist.

Im Durchschnitt über zehn Modelle stieg die End-to-End-Genauigkeit von 28,6 auf 33,7 Prozent. Die Erkennungs-F1-Rate sprang jedoch wesentlich stärker an, von 45,3 auf 64,9 Prozent. Der Hinweis half den Modellen hauptsächlich dabei, Mehrdeutigkeiten zu erkennen, jedoch nicht unbedingt dabei, die Recherche erfolgreich abzuschließen. Bei Claude Opus 4.7 sank die End-to-End-Genauigkeit sogar leicht unter dem geführten Prompt, trotz einer höheren Checkpoint-Passrate.

Mehr Suchen ist schlechter als Raten

Die Analyse des Verhaltensprofils zeigte, was Agenten an mehrdeutigen Checkpoints tatsächlich tun. Modelle, die zuerst suchen und dann eine Nachfrage stellen ("SearchThenAsk"), erreichten eine Erfolgsquote von durchschnittlich 93,4 Prozent. Direktes Raten ohne Nachfrage ("DirectGuess") sank auf 56,5 Prozent. Modelle, die wiederholt suchen, aber trotzdem raten, anstatt nachzufragen ("SearchHeavyGuess"), schnitten mit 51,9 Prozent noch schlechter ab. Die wiederholten Suchanfragen deuten laut den Autoren darauf hin, dass das Modell die Mehrdeutigkeit bereits erkannt hatte, diese aber nie in eine Benutzerinteraktion umwandelte.

Dieses Muster erklärt auch, warum mehr Tool-Calls nicht zu besseren Ergebnissen führen. Claude Opus 4.7 sucht häufiger als die meisten anderen Modelle, liegt aber bei der Genauigkeit immer noch hinter Gemini 3.1 Pro und Doubao Seed 2.0 Pro. Härteres Suchen hilft nicht, wenn der Agent nie die richtige Frage stellt.

Erkennung von Mehrdeutigkeit und Qualität der Fragen

Die Erkennungsfähigkeit und die Qualität der Fragen korrelieren nicht immer miteinander. Qwen3.6 Max erreichte beispielsweise nur eine Erkennungs-F1-Rate von 16 Prozent und stellte im neutralen Setting durchschnittlich 0,07 Nachfragen pro Aufgabe. Wenn es jedoch eine Frage stellte, waren 94,7 Prozent dieser Fragen faktisch korrekt und 89,5 Prozent führten zu einem Fortschritt. MiniMax M2.7 fragte wesentlich häufiger nach, erreichte aber nur eine Erfolgsquote von 60,7 bis 66,5 Prozent.

Ein nützlicher Recherche-Agent benötigt beide Fähigkeiten: zu erkennen, wann eine Nachfrage erforderlich ist, und diese so zu formulieren, dass die Antwort die Suche tatsächlich voranbringt.

Nach Art der Mehrdeutigkeit aufgeschlüsselt, sind faktische Fehler am einfachsten zu erkennen, da sie direkte Widersprüche während der Recherche erzeugen. Entitäts- und Kriterienmehrdeutigkeiten sind schwieriger, da mehrere plausible Kandidaten oder unklare Bewertungsstandards koexistieren können, ohne dass ein offensichtlicher Widerspruch auftritt.

Fazit: Die Notwendigkeit besserer Folgestrategien

Ohne Zugriff auf Suchwerkzeuge brechen die getesteten Modelle ein. Doubao Seed 2.0 Pro fällt von 43,1 auf 2,4 Prozent, Gemini 3.1 Pro von 40,8 auf 19,9 Prozent. DiscoBench kann nicht allein aus dem gespeicherten Modellwissen gelöst werden. Gleichzeitig schneiden Modelle deutlich besser ab, wenn Mehrdeutigkeiten aus den Fragen entfernt werden, wobei die Genauigkeit je nach Modell um 26,8 bis 40,2 Punkte steigt. Die Autoren schlussfolgern, dass zukünftige Suchagenten Mechanismen benötigen, die Suchunsicherheiten in Benutzerinteraktionen umwandeln, zusätzlich zu ihren Abruf- und Schlussfolgerungsfähigkeiten.

Andere aktuelle Studien bestätigen, dass aktuelle Suchagenten grundlegende Schwächen in ihrer Recherchemethode aufweisen. Eine Studie ergab, dass führende Modelle bei Benchmarks wie BrowseComp oft nur das bestätigen, was sie bereits wissen. Auf dem speziell entwickelten LiveBrowseComp, das Fakten jenseits des Wissensstands der Modelle enthielt, fielen alle Systeme um 25 bis 40 Punkte ab. Der Halluhard-Benchmark zeigte auch, dass Claude Opus 4.5 mit Websuche in etwa 30 Prozent der Fälle halluziniert, hauptsächlich bei der Überprüfung des Inhalts zitierter Quellen.

Anthropic hat dieses Problem in seinem neuesten Modell-Update, Claude Opus 4.8, angegangen. Das Modell soll Unsicherheiten häufiger kennzeichnen und lässt Fehler im eigenen Code etwa viermal seltener unkommentiert als sein Vorgänger. Perplexity verfolgt einen anderen Ansatz mit "Search as Code", bei dem Modelle ihre Such-Workflows als Python-Programme schreiben können, anstatt eine vorgefertigte API aufzurufen. Diese Entwicklungen zeigen, dass die Branche die Bedeutung der Interaktion und Klärung bei mehrdeutigen Anfragen zunehmend erkennt.

Bibliographie

- Tao, Y., Deng, S., Tao, M., Wei, P., Hu, Z., & Zhu, Z. (2026). When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search. *arXiv preprint arXiv:2606.27669*. - Deng, M., Huang, L., Fan, Y., Zhang, J., Ren, F., Bai, J., et al. (2025). InteractComp: Evaluating Search Agents With Ambiguous Queries. *arXiv preprint arXiv:2510.24668*. - Gulati, A., Gupta, H., Lumer, E., Sen, S., & Subbiah, V. K. (2026). Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents? *arXiv preprint arXiv:2605.07937v1*. - Kemper, J. (2026, Juli 5). AI search agents don't fail at searching, they fail at asking the right questions when queries get ambiguous. *THE DECODER*. Verfügbar unter: https://the-decoder.com/ai-search-agents-dont-fail-at-searching-they-fail-at-asking-the-right-questions-when-queries-get-ambiguous/ - Petersen, B. (2026, Juli 5). AI Search Agents Fail on Ambiguous Queries. *AI Daily Post*. Verfügbar unter: https://aidailypost.com/news/ai-search-agents-struggle-ambiguous-queries-study-finds - AI Weekly. (2026, Juni 25). DiscoBench: LLM Agents That Keep Searching Lose to Guessing. *AI Weekly Alerts*. Verfügbar unter: https://aiweekly.co/alerts/discobench-llm-agents-that-keep-searching-lose-to-guessing - Snippora. (2026, Juli 5). AI search agents fail by not asking clarifying questions. *Snippora Industry News*. Verfügbar unter: https://snippora.com/industry/ai-search-agents-fail-by-not-asking-clarifying-questions-2140