KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz zur Daten-Synthese für die Entwicklung fortschrittlicher Web-Agenten

Kategorien:
No items found.
Freigegeben:
October 20, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Forschung konzentriert sich auf die Generierung von Agenten-Daten für Web-Agenten mit progressiver Schwierigkeitserhöhung.
    • Ein zweistufiger Daten-Synthese-Ansatz wurde entwickelt, der Fragen-Antwort-Paare mit zunehmender Komplexität generiert.
    • Der Ansatz nutzt einen Baseline-Web-Agenten in mehreren Rollen zur Validierung und Filterung der Daten.
    • Experimente zeigen, dass das neu synthetisierte Dataset, trotz geringerer Größe, effektivere Web-Agenten trainiert.
    • Die trainierten Modelle weisen eine höhere Diversität in der Werkzeugnutzung auf und vermeiden repetitive Verhaltensweisen.

    Fortschritte bei Web-Agenten: Synthese agentischer Daten für komplexe Online-Recherche

    Die Entwicklung von KI-Agenten, die in der Lage sind, komplexe Aufgaben im Internet autonom zu lösen, stellt einen zentralen Forschungsschwerpunkt dar. Insbesondere „Deep Research“-Web-Agenten, die umfassende, quellengestützte Berichte durch Interaktionen mit Online-Tools erstellen, sind vielversprechend. Eine aktuelle Studie beleuchtet einen neuartigen Ansatz zur Generierung von Trainingsdaten, der die Effektivität dieser Agenten maßgeblich verbessern könnte.

    Die Herausforderung: Begrenzte Fähigkeiten aktueller Sprachmodelle

    Die zugrunde liegenden Sprachmodelle, die diese Web-Agenten antreiben, sind oft nicht optimal für Aufgaben, die ein langes Reasoning und tiefgehende Exploration erfordern. Bisherige Ansätze zur Erstellung von Datensätzen für das Instruction Tuning, die häufig Wissensgraphen nutzen, mangeln es oft an feingranularer Kontrolle über Schwierigkeitsgrad und Qualität. Dies führt zu synthetischen Daten, die die Komplexität, die für anspruchsvolle, langfristige Reasoning-Aufgaben notwendig ist, nicht ausreichend abbilden können. Darüber hinaus werden in vielen Studien Daten- und Trainingseffekte vermischt, indem Modelle verglichen werden, die unter verschiedenen Optimierungsrezepten trainiert wurden. Dies erschwert die isolierte Bewertung der tatsächlichen Wirksamkeit der Daten selbst.

    Ein innovativer zweistufiger Daten-Synthese-Ansatz

    Um diesen Herausforderungen zu begegnen, wurde eine zweistufige Daten-Synthese-Pipeline entwickelt. Diese Pipeline generiert Fragen-Antwort-Paare, indem sie die Aufgabenkomplexität schrittweise erhöht, bis ein etablierter Baseline-Web-Agent die Aufgabe nicht mehr lösen kann. Der Baseline-Agent übernimmt in diesem Prozess mehrere Funktionen:

    • Er versucht, die Fragen zu beantworten.
    • Er validiert die Faktizität der Antworten.
    • Er überprüft alternative Antworten.
    • Er setzt Filtermechanismen durch.

    Dieser iterative Prozess stellt sicher, dass die generierten Daten einen hohen Schwierigkeitsgrad aufweisen und relevante Herausforderungen für das Training fortschrittlicher Web-Agenten bieten.

    Kontrolliertes Training und verbesserte Effektivität

    Zur Bewertung der Wirksamkeit dieser Synthesemethoden wurde ein kontrolliertes Trainingsszenario implementiert, das auf der Destillation von Wissen von starken Web-Agenten basiert. Die Experimente, durchgeführt über verschiedene webbasierte Benchmarks, zeigen übereinstimmend, dass das neu erstellte Dataset – obwohl quantitativ kleiner als bestehende Datensätze – das Training effektiverer Web-Agenten ermöglicht. Insbesondere weist das neue Dataset eine doppelt so hohe Diversität in den Aktionen zur Werkzeugnutzung auf. Dies führt dazu, dass darauf trainierte Modelle eine stärkere Leistung erzielen und gleichzeitig repetitive Verhaltensweisen bei der Werkzeugnutzung vermeiden.

    Implikationen für die Entwicklung von KI-Agenten

    Die Ergebnisse dieser Studie haben weitreichende Implikationen für die zukünftige Entwicklung von KI-Agenten. Sie legen nahe, dass die Qualität und Komplexität der Trainingsdaten, insbesondere bei der Entwicklung von Agenten für anspruchsvolle Online-Recherche, entscheidend ist. Durch die systematische Generierung von Daten, die gezielt die Grenzen bestehender Agenten testen und überschreiten, können robustere und vielseitigere KI-Systeme entwickelt werden. Dies trägt dazu bei, die Leistungsfähigkeit von Web-Agenten in komplexen, realen Szenarien zu verbessern und die Vision von autonomen „Deep Research“-Agenten weiter voranzutreiben.

    Zukünftige Perspektiven

    Die fortlaufende Forschung in diesem Bereich wird sich darauf konzentrieren, die Daten-Synthese-Methoden weiter zu verfeinern und die Fähigkeit der Agenten zu verbessern, auch in unvorhergesehenen oder besonders schwierigen Situationen adäquat zu agieren. Die Kombination aus innovativer Datengenerierung und fortschrittlichen Trainingsmethoden bildet eine solide Grundlage für die nächste Generation intelligenter Web-Agenten.

    Bibliographie:

    - Pandit, S., Nguyen, X.-P., Ming, Y., Xu, A., Wang, J., Xiong, C., & Joty, S. (2025). Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms. *[Preprint, ICLR 2026 submission]* - Liu, J., Li, Y., Zhang, C., Li, J., Chen, A., Ji, K., Cheng, W., Wu, Z., Du, C., Xu, Q., Song, J., Zhu, Z., Chen, W., Zhao, P., & He, J. (2025). *WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents*. arXiv. - Qiao, Z., Chen, G., Chen, X., Yu, D., Yin, W., Wang, X., Zhang, Z., Li, B., Yin, H., Li, K., Min, R., Liao, M., Jiang, Y., Xie, P., Huang, F., & Zhou, J. (2025). *WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents*. arXiv. - Ouyang, S., Yan, J., Hsu, I.-H., Chen, Y., Jiang, K., Wang, Z., Han, R., Le, L. T., Daruki, S., Tang, X., Tirumalashetty, V., Lee, G., Rofouei, M., Lin, H., Han, J., Lee, C.-Y., & Pfister, T. (2025). *ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory*. arXiv. - Xu, Y., Lu, D., Shen, Z., Wang, J., Wang, Z., Mao, Y., Xiong, C., & Yu, T. (2024). *AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials*. arXiv. - Liu, Y., Sra, M., Inala, J. P., & Wang, C. (2025). *ReUseIt: Synthesizing Reusable AI Agent Workflows for Web Automation*. arXiv. - OSU-NLP-Group. (2024). *OSU-NLP-Group/GUI-Agents-Paper-List*. GitHub. Abgerufen am 18. Oktober 2025. - AGI-Edgerunners. (2023). *AGI-Edgerunners/LLM-Agents-Papers*. GitHub. Abgerufen am 18. Oktober 2025.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen