Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration von Bildinformationen in die Prozesse großer Sprachmodelle (MLLMs) ist ein zentrales Forschungsgebiet der Künstlichen Intelligenz. Aktuelle Ansätze konzentrieren sich darauf, visuelle Informationen in den Denkprozess einzubeziehen, um die Leistung bei Wahrnehmungs- und Denkaufgaben zu verbessern. Eine kürzlich veröffentlichte Forschungsarbeit, „Thyme: Think Beyond Images“, präsentiert ein innovatives Paradigma, das über bestehende „Think with Images“-Ansätze hinausgeht.
Im Gegensatz zu bisherigen Methoden ermöglicht Thyme MLLMs, selbstständig diverse Bildverarbeitungs- und Rechenoperationen über ausführbaren Code zu generieren und auszuführen. Dies umfasst nicht nur Standardoperationen wie das Zuschneiden, Drehen oder die Kontrastverstärkung von Bildern, sondern auch mathematische Berechnungen. Das Modell entscheidet dabei autonom, wann und wie diese Operationen angewendet werden sollen.
Die Funktionalität von Thyme basiert auf einem zweistufigen Trainingsansatz. Die erste Stufe beinhaltet ein überwachtes Feintuning (Supervised Fine-Tuning, SFT) auf einem kuratierten Datensatz von 500.000 Beispielen, um die Codegenerierung zu trainieren. In der zweiten Stufe wird Verstärkungslernen (Reinforcement Learning, RL) eingesetzt, um die Entscheidungsfindung des Modells zu verfeinern. Hierbei wurden speziell hochauflösende Frage-Antwort-Paare verwendet, um die Lernherausforderung zu erhöhen.
Zur Optimierung des RL-Prozesses wurde der GRPO-ATS-Algorithmus (Group Relative Policy Optimization with Adaptive Temperature Sampling) entwickelt. Dieser Algorithmus verwendet unterschiedliche Temperaturen für die Text- und Codegenerierung, um ein Gleichgewicht zwischen der Exploration des Lösungsraums und der Präzision der Codeausführung zu finden. Diese differenzierte Temperaturregelung ermöglicht es dem Modell, sowohl kreative Lösungsansätze zu erkunden als auch gleichzeitig präzise Code-Segmente zu generieren.
Die Leistungsfähigkeit von Thyme wurde in umfangreichen Experimenten und Ablationsstudien auf nahezu 20 Benchmarks evaluiert. Die Ergebnisse zeigen konsistente und signifikante Leistungssteigerungen im Vergleich zu bestehenden Ansätzen, insbesondere bei herausfordernden Aufgaben mit hochauflösenden Bildern und komplexen Denkaufgaben. Diese Verbesserungen unterstreichen das Potenzial von Thymes eigenständiger Bildverarbeitung und -berechnung für die Verbesserung der Leistung von MLLMs in verschiedenen Anwendungsbereichen.
Das Thyme-Projekt ist Open-Source und steht der Forschungsgemeinschaft auf GitHub zur Verfügung. Dies ermöglicht es anderen Forschern, das System zu untersuchen, weiterzuentwickeln und in eigenen Anwendungen zu integrieren. Die Verfügbarkeit des Codes und der Datensätze fördert die Transparenz und die Reproduzierbarkeit der Ergebnisse. Zukünftige Forschungsarbeiten könnten sich auf die Erweiterung der Funktionalität, die Verbesserung der Effizienz und die Anwendung von Thyme in spezifischen Anwendungsfällen konzentrieren.
Die Entwicklung von Thyme stellt einen bedeutenden Fortschritt im Bereich der multimodalen KI dar. Die Fähigkeit von MLLMs, eigenständig Bildinformationen zu verarbeiten und in den Denkprozess einzubeziehen, eröffnet neue Möglichkeiten für Anwendungen in verschiedenen Branchen. Von der automatisierten Bildanalyse in der Medizin über die verbesserte Objekterkennung in der Robotik bis hin zur effizienteren Datenverarbeitung in der Forschung – Thyme bietet ein vielversprechendes Werkzeug zur Lösung komplexer Aufgaben.
Die Weiterentwicklung solcher multimodalen Modelle wird die Entwicklung intelligenterer und leistungsfähigerer KI-Systeme vorantreiben und somit einen erheblichen Einfluss auf die zukünftige Gestaltung von Technologien und Anwendungen haben.
Die vorliegende Analyse basiert auf der Veröffentlichung der Forschungsarbeit „Thyme: Think Beyond Images“ und zugehörigen Informationen auf Plattformen wie Hugging Face, arXiv und GitHub. Die Ergebnisse wurden objektiv dargestellt und es wurden keine subjektiven Wertungen vorgenommen.
Bibliography - https://arxiv.org/abs/2508.11630 - https://huggingface.co/papers/2508.11630 - https://github.com/yfzhang114/Thyme - https://www.reddit.com/r/LocalLLaMA/comments/1mt9uwy/thyme_think_beyond_images/ - https://huggingface.co/Kwai-Keye/Thyme-SFT - https://paperreading.club/page?id=331546 - https://www.chatpaper.ai/papers - https://www.reddit.com/r/LocalLLaMA/ - https://chatpaper.com/chatpaper?id=4&date=1755446400&page=1 - https://stackoverflow.com/questions/29460618/inserting-an-image-from-local-directory-in-thymeleaf-spring-framework-with-maveLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen