Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung im Bereich der Künstlichen Intelligenz (KI) bringt immer ausgefeiltere Methoden hervor, um komplexe Aufgaben zu automatisieren und zu optimieren. Ein aktuelles Forschungsgebiet, das sowohl für die Wissenschaft als auch für die Industrie von grossem Interesse ist, widmet sich der Verbesserung der Bildbearbeitung durch den Einsatz von Agentic AI. Insbesondere der Ansatz "Agentic Planning with Reasoning for Image Styling via Offline RL" zeigt auf, wie durch strukturierte Planung und Reinforcement Learning (RL) qualitativ hochwertige und präzise Bildbearbeitung möglich wird.
Die direkte, Prompt-basierte Bildbearbeitung, bei der Benutzer Textbefehle eingeben, um Bilder zu modifizieren, stösst oft an ihre Grenzen. Vage oder subjektive Anweisungen erfordern ein tiefes Verständnis dessen, was im Bild verändert werden soll. Dies ist für aktuelle generative Modelle eine Herausforderung, insbesondere wenn es um komplexe Transformationen geht. Die manuelle Feinabstimmung von Hyperparametern zur Steuerung des Stils, wie sie in vielen bestehenden Ansätzen erforderlich ist, kann zudem zeitaufwändig und ineffizient sein. Ein weiterer Aspekt ist die Schwierigkeit, eine grosse Vielfalt an Stilisierungsgraden zu erzeugen, ohne den Inhalt des Bildes zu beeinträchtigen oder unerwünschte Artefakte zu erzeugen.
Der vorgestellte Forschungsansatz setzt auf eine toolbasierte agentische RL-Methode, die komplexe Styling-Aufgaben durch strukturierte Planung und explizite Argumentation zerlegt. Die Kernidee besteht darin, die Vorteile einer kompositorischen Bildbearbeitung zu nutzen, anstatt sich ausschliesslich auf direkte Prompts zu verlassen. Dies wird durch folgende Schlüsselkomponenten ermöglicht:
Das Framework integriert eine Bibliothek orthogonaler primitiver Transformationen. Diese elementaren Werkzeuge können kombiniert werden, um selbst anspruchsvolle Styling-Anforderungen zu erfüllen. Eine strukturierte Kontextrepräsentation und eine explizite Schritt-für-Schritt-Argumentation (Chain of Thought Reasoning) ermöglichen es dem Agenten, komplexe Styling-Aufgaben in eine Abfolge interpretierbarer Werkzeuganwendungen zu zerlegen. Dieser Prozess ähnelt der menschlichen Problemlösung, bei der eine komplexe Aufgabe in kleinere, handhabbare Schritte unterteilt wird.
Ein wesentlicher Beitrag dieser Forschung ist die Entwicklung einer Pipeline zur Generierung synthetischer Daten. Da bestehende Datensätze keine ausreichende Überwachung für Reasoning Chains, Pläne und Qualitätsbewertungen bieten, wurden drei grosse Datensätze (jeweils ca. 10.000 Trajektorien) erstellt. Diese Datensätze umfassen detaillierte Argumentationsketten, Aktionspläne und qualitative Bewertungen, die für das Training der Agenten unerlässlich sind.
Das Training der Planer erfolgt mittels Offline Reinforcement Learning. Dabei werden qualitätsbewertete Trajektorien genutzt, um die Leistung kontinuierlich zu verbessern. Diese Methode ermöglicht es dem System, aus Erfahrungen zu lernen, ohne direkte Interaktion mit der realen Umgebung, was die Effizienz und Sicherheit des Trainings erhöht. Die angewandten Offline-RL-Methoden tragen massgeblich dazu bei, die visuelle Qualität und die Befolgung von Anweisungen zu optimieren.
Die umfassende Evaluation des Ansatzes erfolgte unter Verwendung von Qwen3-VL-Modellen mit 4B und 8B Parametern. Die Ergebnisse zeigen, dass die entwickelten Methoden in der Mehrzahl der kompositorischen Aufgaben andere Baselines übertreffen. Dies wurde nicht nur durch quantitative Metriken, sondern auch durch menschliche Bewertungen bestätigt. Die verbesserte Performance manifestiert sich in einer höheren visuellen Qualität der bearbeiteten Bilder und einer präziseren Umsetzung der gegebenen Anweisungen.
Die Implikationen dieser Forschung sind vielfältig. Für Unternehmen im Bereich der digitalen Medien, des Marketings oder der E-Commerce-Branche bedeutet dies die Möglichkeit, Bildbearbeitungsprozesse zu automatisieren und zu skalieren, ohne Kompromisse bei der Qualität einzugehen. Komplexe Bildanpassungen, die bisher manuelle Eingriffe erforderten, könnten zukünftig effizienter und konsistenter durch KI-Agenten durchgeführt werden. Dies eröffnet neue Möglichkeiten für personalisierte Inhalte und die schnelle Erstellung grosser Mengen an stilistisch konsistenten Bildern.
Darüber hinaus leistet dieser Ansatz einen Beitrag zur Weiterentwicklung von Agentic AI, indem er zeigt, wie strukturierte Planung und Reasoning in Verbindung mit Offline RL zur Lösung anspruchsvoller realer Probleme eingesetzt werden können. Die Schaffung von synthetischen Datensätzen mit expliziten Reasoning Chains ist ein wichtiger Schritt zur Überwindung von Datenengpässen in der Forschung und Entwicklung von KI-Systemen.
Die Ergebnisse unterstreichen die wachsende Bedeutung von Agentic AI und Reinforcement Learning als Schlüsseltechnologien für die zukünftige Entwicklung intelligenter Systeme, die nicht nur Muster erkennen, sondern auch komplexe Aufgaben planen, ausführen und dabei explizit argumentieren können.
Die Forschung in diesem Bereich ist weiterhin dynamisch. Zukünftige Arbeiten könnten sich auf die Erweiterung der Bibliothek primitiver Transformationen, die Verfeinerung der Reasoning-Fähigkeiten der Agenten und die Anpassung des Frameworks an noch komplexere und vielfältigere Bildbearbeitungsaufgaben konzentrieren. Auch die Integration mit anderen multimodalen KI-Systemen, die beispielsweise Texte, Töne oder Videos verarbeiten, könnte neue Anwendungsfelder erschliessen. Die kontinuierliche Verbesserung der Effizienz und Skalierbarkeit dieser Methoden wird entscheidend sein, um sie breiter in industriellen Anwendungen einzusetzen.
Für Mindverse, als deutsches AI-Unternehmen, das sich auf Content-Tools spezialisiert hat, sind solche Entwicklungen von grosser Relevanz. Die Möglichkeit, komplexe Bildbearbeitungsprozesse durch intelligente Agenten zu optimieren, kann die Qualität und Effizienz der Content-Erstellung für B2B-Kunden erheblich steigern und neue, innovative Lösungen im Bereich der visuellen Kommunikation ermöglichen.
Bibliography: - Mukherjee, S., Petrangeli, S., Kveton, B., Bui, T., Dernoncourt, F., & Mukherjee, A. (2026). Agentic Planning with Reasoning for Image Styling via Offline RL. arXiv preprint arXiv:2603.07148. - Yao, M., You, Z., Man, T.-K., Wang, M., & Xue, T. (2026). PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning. arXiv preprint arXiv:2602.22809. - Hong, J., Dragan, A., & Levine, S. (2025). Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL. arXiv preprint arXiv:2505.18098. - Hu, J., Feng, C., Hu, S., Chang, M.-C., Li, X., Wu, X., & Wang, X. (2025). RLMiniStyler: Light-weight RL Style Agent for Arbitrary Sequential Neural Style Generation. Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence (IJCAI-25), 1116-1124. - Webb, T., Mondal, S. S., & Momennejad, I. (2025). A brain-inspired agentic architecture to improve planning with LLMs. Nature Communications, 16(1), 8633. - ICLR 2025 Workshop on Reasoning and Planning for Large Language Models. (n.d.). Retrieved from https://workshop-llm-reasoning-planning.github.io/ - Downloads 2025. (n.d.). Retrieved from https://neurips.cc/Downloads/2025 - The Landscape of Agentic Reinforcement. (n.d.). Retrieved from https://www.facebook.com/groups/DeepNetGroup/posts/2585398601853006/ - weitianxin/Awesome-Agentic-Reasoning: A curated list of papers and resources based on the survey "Agentic Reasoning for Large Language Models". (n.d.). Retrieved from https://github.com/weitianxin/Awesome-Agentic-ReasoningLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen