Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Leistungsfähigkeit von KI-Suchagenten wird in der Fachwelt intensiv diskutiert. Eine aktuelle Studie wirft nun die Frage auf, ob diese Agenten tatsächlich umfassende Recherchen im Web durchführen oder primär bereits vorhandenes Wissen validieren. Diese Erkenntnisse sind für Unternehmen, die auf präzise und aktuelle Informationen angewiesen sind, von erheblicher Relevanz, da sie die Verlässlichkeit und Effektivität von KI-gestützten Recherchetools grundlegend beeinflussen könnten.
Führende KI-Suchagenten, darunter Modelle wie GPT-5.4, Gemini 3.1 Pro und Claude Sonnet 4.6, erzielen auf etablierten Benchmarks wie BrowseComp regelmäßig hohe Punktzahlen. Diese Benchmarks sind darauf ausgelegt, komplexe Fragen zu stellen, die angeblich nur durch mehrstufiges Browsen und das Zusammenführen von Informationen aus verschiedenen Webquellen beantwortet werden können. Eine Untersuchung von Forschenden des Harbin Institute of Technology und Xiaohongshu deutet jedoch darauf hin, dass diese Ergebnisse weniger die Recherchekompetenz als vielmehr die Fähigkeit der Modelle widerspiegeln, bereits gespeichertes Wissen zu bestätigen. Dieses Phänomen wird als "Intrinsic Knowledge Dependence" (IKD) bezeichnet – eine Abhängigkeit von internem Wissen, das die Modelle während ihres Trainings erworben haben.
In der Studie wurden elf verschiedene Modelle getestet, zunächst ohne Zugang zu Such- und Browsing-Tools. Überraschenderweise zeigten die Modelle auch ohne Internetzugang eine bemerkenswert hohe Leistung. Beispielsweise konnte MiniMax M2.5 44,5 Prozent der BrowseComp-Aufgaben allein aus dem Gedächtnis lösen. Kimi K2.6 erreichte auf der chinesischen Variante BrowseComp-ZH sogar 62 Prozent. Dies impliziert, dass ein signifikanter Teil der Benchmark-Leistung bereits vor jeglicher externen Suche erbracht wird.
Eine weitere Testreihe untersuchte das Verhalten der Agenten, wenn die Suchschnittstelle zwar aktiv war, jedoch alle antwortunterstützenden Dokumente aus dem Suchindex entfernt wurden. In diesem Szenario zeigte sich ein deutlicher Leistungsabfall bei allen getesteten Modellen. MiniMax M2.5 fiel von 44,5 auf 8,0 Prozent, und Kimi-K2.6 sank von 25,5 auf 2,3 Prozent. Dies deutet darauf hin, dass die Suchfunktion, wenn sie keine bestätigenden Treffer liefert, die Agenten aktiv von potenziell korrekten, aus dem Gedächtnis abgeleiteten Antworten ablenken kann.
Die Analyse der Suchpfade liefert weitere Einblicke: Mehr als die Hälfte aller Suchanfragen wurde durch die internen Überlegungen des Modells generiert und nicht durch zuvor gefundene Treffer. Selbst wenn relevante Beweise in den Suchergebnissen auftauchten, wurden diese von den Agenten in weniger als einem Drittel der Fälle in ihre Argumentation integriert. Dies legt nahe, dass der Suchprozess eher modellgesteuert als evidenzgesteuert ist.
Um die tatsächliche Recherchefähigkeit der Agenten zu messen, entwickelten die Autoren den LiveBrowseComp-Benchmark. Dieser enthält 335 von Menschen verfasste Fragen, die jeweils auf mindestens einer Tatsache basieren, die in den 90 Tagen vor der Erstellung der Frage veröffentlicht wurde. Eine Beantwortung dieser Fragen ist ohne aktuelle Informationen nicht möglich.
Die zugrundeliegenden Ereignisse stammen aus ständig aktualisierten Quellen wie Filmdatenbanken, Spieleverzeichnissen, Registern für Sicherheitslücken und Erdbebenkatalogen. Bewusst wurden global bekannte Ereignisse herausgefiltert, um obskure, aber öffentlich überprüfbare Fakten zu verwenden, die während des Modelltrainings kaum in die Parameter der Modelle gelangt sein dürften.
Menschliche Tester benötigen für LiveBrowseComp ungefähr die gleiche Zeit wie für BrowseComp und lösen eine ähnliche Anzahl von Aufgaben. Der Leistungsabfall bei den Modellen ist demnach nicht auf eine erhöhte Schwierigkeit der Fragen zurückzuführen, sondern auf das Fehlen der Möglichkeit, auf gespeichertes Wissen zurückzugreifen.
Auf LiveBrowseComp fallen alle Modelle im Closed-Book-Test unter zwei Prozent Genauigkeit. Mit aktivierten Tools liegen die Ergebnisse etwa 25 bis 40 Punkte unter den vergleichbaren BrowseComp-Ergebnissen derselben Modelle. Dies führt zu einer signifikanten Verschiebung der Ranglisten. GLM 5.1, ein Spitzenreiter unter den Open-Source-Modellen auf BrowseComp, fällt auf LiveBrowseComp ins Mittelfeld zurück. DeepSeek v3.2, das auf BrowseComp am unteren Ende lag, kletterte auf LiveBrowseComp an die Spitze und übertraf mehrere Modelle, die zuvor besser abschnitten. Diese Ergebnisse legen nahe, dass die Position eines Modells auf einer statischen Rangliste primär widerspiegelt, wie viel es bereits weiß, und nicht, wie gut es recherchieren kann.
Auf BrowseComp lösen Agenten viele Fragen in wenigen Schritten, was auf eine schnelle Gedächtnisbestätigung hindeutet. Auf LiveBrowseComp verschwindet dieses Muster. Die Anzahl der benötigten Schritte steigt deutlich an, was darauf hindeutet, dass die Agenten tatsächlich recherchieren, anstatt gespeichertes Wissen abzurufen.
Die Autoren der Studie plädieren dafür, dass dynamische, zeitkritische Benchmarks zum Standard für die Bewertung von KI-Agenten werden sollten. Sie fordern zudem Trainingssignale, die evidenzbasierte Recherche belohnen, anstatt den derzeitigen "Raten-und-Bestätigen"-Ansatz zu fördern.
Ähnliche Probleme wurden bereits in anderen Studien identifiziert. Eine Untersuchung der Peking University zeigte, dass Top-Modelle bei der Dokumentenanalyse oft die richtige Antwort liefern, aber die falschen Quellen zitieren – ein Phänomen, das als "Attributionshalluzination" bezeichnet wird. Ein Tool namens CiteAudit entdeckte kürzlich, dass sogar fabrizierte Referenzen in akzeptierte Arbeiten auf großen KI-Konferenzen gelangt sind, da kommerzielle Modelle gefälschte Zitate nicht zuverlässig erkennen.
Für Unternehmen bedeutet dies, dass bei der Implementierung von KI-Suchagenten ein genaues Verständnis der Funktionsweise und der potenziellen Limitationen unerlässlich ist. Die Fähigkeit zur unabhängigen, evidenzbasierten Recherche ist ein entscheidender Faktor für die Verlässlichkeit und den Mehrwert dieser Technologien im B2B-Bereich.
Bibliography: - Fan, H., Wang, X., Chu, Z., Wang, Q., Wang, Z., Liu, M., ... & XingYu. (2026). LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know? *arXiv preprint arXiv:2605.28721*. - Kemper, J. (2026, May 31). AI search agents often confirm what they already know instead of actually researching the web. *The Decoder*. - Ko, D., Kim, J., Kim, S., Park, H., Lee, D., Kim, G., ... & Lee, K. (2026). When Is Enough Not Enough? Illusory Completion in Search Agents. *arXiv preprint arXiv:2602.07549*. - Leung, W. et al. (2025). The narrow search effect and how broadening search promotes belief updating. *PNAS*, 122(13), e2408175122. - Tang, Y., Yang, C., Liu, S., Xiang, Z., Chen, Z., Zhang, Q., ... & Su, J. (2026). SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search. *arXiv preprint arXiv:2605.29796*. - Wu, P., Zhang, M., Zhang, X., Du, X., & Chen, Z. Z. (2025). Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty. *arXiv preprint arXiv:2505.17281*. - Zou, D., Chen, Y., Feng, F., Li, M., Li, P., Gong, Y., & Cheng, J. (2026). On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents. *arXiv preprint arXiv:2603.12109*.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen