Neuartige Bildgenerierung mit Gen-Searcher: Ein agentischer Ansatz zur Wissensaneignung

Kategorien:

No items found.

Freigegeben:

April 1, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Gen-Searcher ist ein neuartiges System zur Bildgenerierung, das durch agentische Suche und multimodales Reasoning die Qualität und Aktualität generierter Bilder signifikant verbessert.
Es adressiert die Limitierung herkömmlicher Bildgenerierungsmodelle, die auf „eingefrorenem“ Wissen basieren und bei wissensintensiven oder aktuellen Anfragen an ihre Grenzen stoßen.
Das System führt eine mehrstufige Recherche durch, indem es Text- und Bildsuchen im Web nutzt und Ergebnisse interpretiert, bevor es Bilder generiert.
Zwei speziell entwickelte Datensätze, Gen-Searcher-SFT-10k und Gen-Searcher-RL-6k, sowie der KnowGen-Benchmark wurden zur Entwicklung und Evaluierung des Modells geschaffen.
Gen-Searcher wird in zwei Phasen trainiert: mittels Supervised Fine-Tuning (SFT) und anschließend durch Agentic Reinforcement Learning (RL) mit einem dualen Belohnungssystem.
Die experimentellen Ergebnisse zeigen eine deutliche Leistungssteigerung, beispielsweise eine Verbesserung des K-Scores um etwa 16 Punkte auf dem KnowGen-Benchmark für Qwen-Image.
Das Modell weist eine hohe Übertragbarkeit auf andere Bildgeneratoren auf, was seinen breiten Anwendungsbereich unterstreicht.

Einführung in die Herausforderung der Bildgenerierung

Die aktuellen Fortschritte in der Bildgenerierung mittels künstlicher Intelligenz sind beeindruckend. Modelle sind heute in der Lage, Bilder von hoher Qualität und Realitätsnähe zu erzeugen. Dennoch stoßen diese Systeme an grundlegende Grenzen, insbesondere wenn es um die Generierung von Inhalten geht, die spezifisches, aktuelles oder komplexes Wissen erfordern. Die interne Wissensbasis dieser Modelle ist oft statisch und "eingefroren" zum Zeitpunkt ihres letzten Trainings. Dies führt dazu, dass sie bei Anfragen, die über ihr gespeichertes Wissen hinausgehen – beispielsweise zu neuen Produkten, aktuellen Ereignissen oder spezifischen, seltenen Konzepten – ungenaue oder fehlerhafte Bilder produzieren können.

Gen-Searcher: Ein agentischer Ansatz zur Wissenserweiterung

Ein Forschungsteam hat mit Gen-Searcher einen neuartigen Ansatz vorgestellt, der diese Limitierung überwinden soll. Gen-Searcher ist ein sucherweiterter Bildgenerierungs-Agent, der darauf ausgelegt ist, vor der eigentlichen Bildgenerierung eine mehrstufige Recherche durchzuführen. Ziel ist es, die für eine fundierte Generierung benötigten textuellen Informationen und Referenzbilder aktiv aus externen Quellen zu sammeln. Dieser Ansatz transformiert den Prozess der Bildgenerierung von einem reaktiven zu einem proaktiven Modell, das sich aktiv Wissen aneignet.

Die Funktionsweise von Gen-Searcher

Im Kern agiert Gen-Searcher als ein multimodaler "Deep Research Agent". Im Gegensatz zu traditionellen Modellen, die direkt aus einem Prompt ein Bild erzeugen, integriert Gen-Searcher eine kritische Zwischenstufe: die Tiefensuche. Dieser Agent ist in der Lage,:

Web-Suche durchzuführen: Um relevante Textinformationen zu finden.
Beweise zu durchsuchen: Die gefundenen Informationen zu sichten und zu bewerten.
Über mehrere Quellen hinweg zu schlussfolgern: Informationen aus verschiedenen Quellen zu verknüpfen und ein kohärentes Verständnis aufzubauen.
Visuelle Referenzen zu suchen: Passende Bilder zu finden, die als Grundlage für die Generierung dienen können.

Erst nach dieser umfassenden Recherche werden die gesammelten und verifizierten Informationen an das Bildgenerierungsmodell übergeben, was zu deutlich präziseren und relevanteren Ergebnissen führt.

Entwicklung und Trainingsmethodik

Die Entwicklung von Gen-Searcher erforderte die Schaffung einer neuen Dateninfrastruktur und spezifischer Trainingsmethoden:

Datengenerierungspipeline: Eine maßgeschneiderte Pipeline wurde entwickelt, um suchintensive Prompts automatisch zu generieren. Hierbei wurden Modelle wie Gemini 3 Pro eingesetzt, um komplexe Suchanfragen zu erstellen und ideale „agentische Trajektorien“ für deren Beantwortung zu definieren.
Hochwertige Datensätze: Zwei zentrale Datensätze, Gen-Searcher-SFT-10k und Gen-Searcher-RL-6k, wurden kuratiert. Diese enthalten eine Vielzahl von suchintensiven Prompts und den entsprechenden Referenzbildern und -informationen.
KnowGen-Benchmark: Zur objektiven Bewertung der Modelle wurde ein neuer Benchmark namens KnowGen eingeführt. Dieser erfordert explizit die Nutzung externen Wissens für die Bildgenerierung und bewertet die Modelle anhand verschiedener Dimensionen.

Das Training von Gen-Searcher erfolgt in zwei Hauptphasen:

Supervised Fine-Tuning (SFT): In dieser Phase lernt das Modell die grundlegende Nutzung der Recherche-Werkzeuge und die Verarbeitung von Informationen basierend auf den kuratierten Datensätzen.
Agentic Reinforcement Learning (RL): Anschließend wird das Modell mittels Reinforcement Learning optimiert. Ein duales Belohnungssystem, das sowohl textbasierte Belohnungen (für die Qualität der gesammelten Informationen) als auch bildbasierte Belohnungen (für die Qualität des generierten Bildes) kombiniert, sorgt für stabilere und informativere Lernsignale. Dies ist besonders wichtig, da die Qualität von Webdaten variieren kann.

Die Werkzeugkiste des Agenten

Um seine Aufgaben zu erfüllen, ist Gen-Searcher mit spezifischen Werkzeugen ausgestattet:

Textsuche: Für das Abrufen faktischer Informationen, Namen, Daten oder technischen Details.
Bildsuche: Zum Finden visueller Referenzen, beispielsweise für das Aussehen von Personen, Produkten oder Gebäuden. Dies ist entscheidend für die visuelle Erdung der generierten Bilder.
Browsen: Ermöglicht es dem Agenten, tiefer in Webseiten einzutauchen und detaillierte Informationen zu extrahieren, die über einfache Suchergebnisse hinausgehen.

Ergebnisse und Auswirkungen

Die experimentellen Ergebnisse demonstrieren die Wirksamkeit von Gen-Searcher. Auf dem KnowGen-Benchmark konnte das System beispielsweise die Leistung von Qwen-Image um etwa 16 Punkte verbessern. Auch auf dem WISE-Benchmark wurden signifikante Gewinne von 15 Punkten erzielt. Diese Verbesserungen sind besonders bemerkenswert, da im Bereich der KI-Benchmarks bereits kleine Steigerungen als bedeutend gelten.

Ein weiterer wichtiger Aspekt ist die Übertragbarkeit von Gen-Searcher. Der trainierte Recherche-Agent kann von einem Bildmodell "abgekoppelt" und in ein anderes integriert werden, wobei er auch dort ohne zusätzliches Training zu erheblichen Leistungssteigerungen führt. Dies wurde beispielsweise bei der Integration in Modelle wie Seedream 4.5 und Nano Banana Pro beobachtet.

Zukünftige Perspektiven und Open-Source-Beitrag

Die Entwicklung von Gen-Searcher markiert einen wichtigen Schritt in der Evolution der KI-gestützten Bildgenerierung. Sie zeigt den Weg von Systemen, die auf statischem, "eingefrorenem" Wissen basieren, hin zu intelligenten Agenten, die aktiv Wissen recherchieren und sich an aktuelle Informationen anpassen können. Die Fähigkeit, sich in Echtzeit zu erden und Fakten zu überprüfen, erweitert die Anwendungsmöglichkeiten von Bildgenerierungsmodellen erheblich.

Das Forschungsteam hat alle Daten, Modelle und den Code von Gen-Searcher quelloffen zur Verfügung gestellt. Dies soll als Grundlage für weitere Forschung und Entwicklung im Bereich der suchgestützten Bildgenerierung dienen.

Fazit für B2B-Anwendungen

Für Unternehmen im B2B-Sektor, die auf präzise und aktuelle Bildinhalte angewiesen sind, bietet Gen-Searcher vielversprechende Perspektiven. Die Fähigkeit, Bilder zu generieren, die auf verifiziertem und aktuellem Wissen basieren, kann in einer Vielzahl von Anwendungsfällen von Vorteil sein:

Marketing und Werbung: Erstellung von Produktbildern oder Kampagnenvisualisierungen, die spezifische Details oder aktuelle Trends berücksichtigen.
Produktdesign und Visualisierung: Generierung von Konzeptvisualisierungen, die auf detaillierten Spezifikationen und Referenzmaterialien basieren.
Bildung und Wissenschaft: Erstellung von genauen Diagrammen, Illustrationen oder Visualisierungen komplexer wissenschaftlicher Konzepte.
Nachrichten und Medien: Schnelle Generierung von visuellen Inhalten zu aktuellen Ereignissen, die faktisch korrekt sind.

Die Integration von agentischen Suchmechanismen in Bildgenerierungstools, wie sie Mindverse als KI-Partner anbietet, verspricht eine neue Ära der Content-Erstellung, die nicht nur kreativ, sondern auch fundiert und präzise ist.

Bibliographie

- Kaituo Feng, Manyuan Zhang, Shuang Chen, Yunlong Lin, Kaixuan Fan, Yilei Jiang, Hongyu Li, Dian Zheng, Chenyang Wang, Xiangyu Yue. "Gen-Searcher: Reinforcing Agentic Search for Image Generation". arXiv:2603.28767, 2026. - GitHub Repository: https://github.com/tulerfeng/Gen-Searcher - Project Page: https://gen-searcher.vercel.app/ - Research Paper Review (YouTube): "Gen-Searcher: Reinforcing Agentic Search for Image Generation". https://www.youtube.com/watch?v=kGYvTpWb0nY - Substack - Vlad Bogolin (@vladbogo): "AI Paper of the Day - Gen-Searcher: Reinforcing Agentic Search for Image Generation". https://substack.com/@vladbogo/note/c-236207326