Einsichten zur Recherchefähigkeit von KI-Suchagenten und deren Abhängigkeit vom Vorwissen

Kategorien:

No items found.

Freigegeben:

June 1, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Aktuelle Studien zeigen, dass KI-Suchagenten auf etablierten Benchmarks oft vorhandenes Wissen bestätigen, anstatt aktiv neue Informationen zu recherchieren.
Die "Intrinsic Knowledge Dependence" (IKD) beschreibt die Abhängigkeit von internem, während des Trainings erworbenem Wissen.
Ein neuer Benchmark, LiveBrowseComp, testet die Fähigkeit von KI-Agenten, zeitkritische und unbekannte Informationen zu finden.
Auf LiveBrowseComp sinkt die Leistung der Modelle erheblich, und die Ranglisten verschieben sich, was auf eine geringere tatsächliche Recherchefähigkeit hindeutet.
Analysen zeigen, dass Suchanfragen oft von internen Hypothesen statt von externen Hinweisen generiert werden und gefundene Beweise selten genutzt werden.
Experten fordern dynamische, zeitabhängige Benchmarks und Trainingsmethoden, die evidenzbasierte Recherche belohnen.

Die Leistungsfähigkeit von KI-Suchagenten wird in der Fachwelt intensiv diskutiert. Eine aktuelle Studie wirft nun die Frage auf, ob diese Agenten tatsächlich umfassende Recherchen im Web durchführen oder primär bereits vorhandenes Wissen validieren. Diese Erkenntnisse sind für Unternehmen, die auf präzise und aktuelle Informationen angewiesen sind, von erheblicher Relevanz, da sie die Verlässlichkeit und Effektivität von KI-gestützten Recherchetools grundlegend beeinflussen könnten.

Die Validierung von Vorwissen statt aktiver Recherche

Führende KI-Suchagenten, darunter Modelle wie GPT-5.4, Gemini 3.1 Pro und Claude Sonnet 4.6, erzielen auf etablierten Benchmarks wie BrowseComp regelmäßig hohe Punktzahlen. Diese Benchmarks sind darauf ausgelegt, komplexe Fragen zu stellen, die angeblich nur durch mehrstufiges Browsen und das Zusammenführen von Informationen aus verschiedenen Webquellen beantwortet werden können. Eine Untersuchung von Forschenden des Harbin Institute of Technology und Xiaohongshu deutet jedoch darauf hin, dass diese Ergebnisse weniger die Recherchekompetenz als vielmehr die Fähigkeit der Modelle widerspiegeln, bereits gespeichertes Wissen zu bestätigen. Dieses Phänomen wird als "Intrinsic Knowledge Dependence" (IKD) bezeichnet – eine Abhängigkeit von internem Wissen, das die Modelle während ihres Trainings erworben haben.

Die Rolle des intrinsischen Wissens

In der Studie wurden elf verschiedene Modelle getestet, zunächst ohne Zugang zu Such- und Browsing-Tools. Überraschenderweise zeigten die Modelle auch ohne Internetzugang eine bemerkenswert hohe Leistung. Beispielsweise konnte MiniMax M2.5 44,5 Prozent der BrowseComp-Aufgaben allein aus dem Gedächtnis lösen. Kimi K2.6 erreichte auf der chinesischen Variante BrowseComp-ZH sogar 62 Prozent. Dies impliziert, dass ein signifikanter Teil der Benchmark-Leistung bereits vor jeglicher externen Suche erbracht wird.

Eine weitere Testreihe untersuchte das Verhalten der Agenten, wenn die Suchschnittstelle zwar aktiv war, jedoch alle antwortunterstützenden Dokumente aus dem Suchindex entfernt wurden. In diesem Szenario zeigte sich ein deutlicher Leistungsabfall bei allen getesteten Modellen. MiniMax M2.5 fiel von 44,5 auf 8,0 Prozent, und Kimi-K2.6 sank von 25,5 auf 2,3 Prozent. Dies deutet darauf hin, dass die Suchfunktion, wenn sie keine bestätigenden Treffer liefert, die Agenten aktiv von potenziell korrekten, aus dem Gedächtnis abgeleiteten Antworten ablenken kann.

Analyse des Suchverhaltens

Die Analyse der Suchpfade liefert weitere Einblicke: Mehr als die Hälfte aller Suchanfragen wurde durch die internen Überlegungen des Modells generiert und nicht durch zuvor gefundene Treffer. Selbst wenn relevante Beweise in den Suchergebnissen auftauchten, wurden diese von den Agenten in weniger als einem Drittel der Fälle in ihre Argumentation integriert. Dies legt nahe, dass der Suchprozess eher modellgesteuert als evidenzgesteuert ist.

LiveBrowseComp: Ein Benchmark jenseits der Wissensgrenzen

Um die tatsächliche Recherchefähigkeit der Agenten zu messen, entwickelten die Autoren den LiveBrowseComp-Benchmark. Dieser enthält 335 von Menschen verfasste Fragen, die jeweils auf mindestens einer Tatsache basieren, die in den 90 Tagen vor der Erstellung der Frage veröffentlicht wurde. Eine Beantwortung dieser Fragen ist ohne aktuelle Informationen nicht möglich.

Die zugrundeliegenden Ereignisse stammen aus ständig aktualisierten Quellen wie Filmdatenbanken, Spieleverzeichnissen, Registern für Sicherheitslücken und Erdbebenkatalogen. Bewusst wurden global bekannte Ereignisse herausgefiltert, um obskure, aber öffentlich überprüfbare Fakten zu verwenden, die während des Modelltrainings kaum in die Parameter der Modelle gelangt sein dürften.

Menschliche Tester benötigen für LiveBrowseComp ungefähr die gleiche Zeit wie für BrowseComp und lösen eine ähnliche Anzahl von Aufgaben. Der Leistungsabfall bei den Modellen ist demnach nicht auf eine erhöhte Schwierigkeit der Fragen zurückzuführen, sondern auf das Fehlen der Möglichkeit, auf gespeichertes Wissen zurückzugreifen.

Verschiebung der Ranglisten

Auf LiveBrowseComp fallen alle Modelle im Closed-Book-Test unter zwei Prozent Genauigkeit. Mit aktivierten Tools liegen die Ergebnisse etwa 25 bis 40 Punkte unter den vergleichbaren BrowseComp-Ergebnissen derselben Modelle. Dies führt zu einer signifikanten Verschiebung der Ranglisten. GLM 5.1, ein Spitzenreiter unter den Open-Source-Modellen auf BrowseComp, fällt auf LiveBrowseComp ins Mittelfeld zurück. DeepSeek v3.2, das auf BrowseComp am unteren Ende lag, kletterte auf LiveBrowseComp an die Spitze und übertraf mehrere Modelle, die zuvor besser abschnitten. Diese Ergebnisse legen nahe, dass die Position eines Modells auf einer statischen Rangliste primär widerspiegelt, wie viel es bereits weiß, und nicht, wie gut es recherchieren kann.

Erhöhter Forschungsaufwand bei fehlendem Gedächtnis

Auf BrowseComp lösen Agenten viele Fragen in wenigen Schritten, was auf eine schnelle Gedächtnisbestätigung hindeutet. Auf LiveBrowseComp verschwindet dieses Muster. Die Anzahl der benötigten Schritte steigt deutlich an, was darauf hindeutet, dass die Agenten tatsächlich recherchieren, anstatt gespeichertes Wissen abzurufen.

Die Autoren der Studie plädieren dafür, dass dynamische, zeitkritische Benchmarks zum Standard für die Bewertung von KI-Agenten werden sollten. Sie fordern zudem Trainingssignale, die evidenzbasierte Recherche belohnen, anstatt den derzeitigen "Raten-und-Bestätigen"-Ansatz zu fördern.