Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die kontinuierliche Weiterentwicklung künstlicher Intelligenz (KI) ist ein zentrales Thema in der heutigen Technologielandschaft. Insbesondere die Leistungsfähigkeit von KI-Agenten, die zunehmend komplexe Aufgaben übernehmen, rückt in den Fokus wissenschaftlicher Untersuchungen. Aktuelle Forschungsergebnisse von Wissenschaftlern der National University of Singapore, der Princeton University und der University of Illinois Urbana-Champaign beleuchten drei entscheidende Faktoren, die die Intelligenz dieser Agenten signifikant beeinflussen. Diese Erkenntnisse bieten wichtige Implikationen für die Entwicklung und Implementierung von KI in Unternehmenskontexten.
Ein zentraler Befund der Studie betrifft die Qualität und Beschaffenheit der Trainingsdaten. Die Forschenden verglichen Modelle, die mit authentischen Lernpfaden trainiert wurden, mit solchen, die auf synthetischen Daten basierten, bei denen Zwischenschritte durch Tool-Outputs ersetzt wurden. Die Ergebnisse waren eindeutig: Modelle, die mit realen Daten trainiert wurden, zeigten eine deutlich höhere Genauigkeit.
Ein 4-Milliarden-Parameter-Modell, das mit realen Daten trainiert wurde, erreichte auf AIME-Mathematik-Benchmarks eine Genauigkeit von 29,79 Prozent. Das gleiche Modell, das mit synthetischen Daten trainiert wurde, erreichte weniger als 10 Prozent. Dies liegt daran, dass reale Daten den vollständigen Denkprozess eines Agenten abbilden, einschließlich Voranalyse, geführter Ausführung, Fehlerkorrektur und Selbstreflexion. Synthetische Daten können diese komplexen Zusammenhänge nicht adäquat replizieren.
Ebenso entscheidend erwies sich die Vielfalt der Daten. Ein gemischter Datensatz von 30.000 Beispielen aus Mathematik, Naturwissenschaften und Programmierung beschleunigte den Lernprozess erheblich. Der KI-Agent erreichte eine Genauigkeit von 50 Prozent nach nur 150 Trainingsschritten, während ein rein mathematischer Datensatz 220 Schritte benötigte, um den gleichen Wert zu erreichen. Dies unterstreicht die Notwendigkeit, KI-Modelle mit einem breiten Spektrum an realen und vielfältigen Daten zu trainieren, um ihre Problemlösungsfähigkeiten zu optimieren.
Der zweite maßgebliche Faktor ist das Design des Lernprozesses selbst. Das Forschungsteam untersuchte verschiedene Algorithmusvarianten zur Leistungsoptimierung. Als überlegen erwies sich eine Methode namens GRPO-TCR, die eine token-basierte Bewertung (Bewertung einzelner Wortsegmente), ein breiteres Clipping für eine umfassendere Exploration und ein Belohnungssystem zur Vermeidung übermäßig langer Antworten kombiniert.
Dieser optimierte Ansatz erzielte auf einem Mathematik-Benchmark eine Genauigkeit von 70,93 Prozent und auf einem weiteren 68,13 Prozent. Die token-basierte Bewertung übertraf dabei satzbasierte Methoden um etwa 4 Prozentpunkte. Im Gegensatz zum traditionellen Reinforcement Learning können Agenten durch Werkzeuginteraktionen sowohl die Exploration als auch die Präzision simultan verbessern. Dies deutet darauf hin, dass die Feinabstimmung der Bewertungsmechanismen im Trainingsalgorithmus einen erheblichen Einfluss auf die Lernkurve und die finale Leistungsfähigkeit des Agenten hat.
Der dritte Befund betrifft die Art und Weise, wie die KI ihr Reasoning organisiert. Die Forschenden identifizierten zwei Hauptstile: reaktiv (kurze Denkprozesse, häufiger Werkzeugeinsatz) und deliberativ (längere Denkprozesse, seltenerer Werkzeugaufruf). Modelle, die eine deliberative Strategie verfolgten, erreichten konsistent Erfolgsquoten von über 70 Prozent beim Werkzeugeinsatz. Reaktive Modelle hingegen schnitten deutlich schlechter ab, da ihre schnellen, oft unüberlegten Werkzeugaufrufe ineffektiv oder fehlerhaft waren. Dies illustriert, dass Qualität der Überlegung Quantität der Aktion überlegen ist.
Interessanterweise zeigte sich, dass aktuelle Modelle mit langen "Thought Chains" Schwierigkeiten bei der Werkzeugintegration aufweisen. Obwohl sie für ausgedehntes Denken optimiert sind, neigen sie dazu, Werkzeugaufrufe gänzlich zu vermeiden und sich ausschließlich auf interne Denkprozesse zu verlassen. Dies weist auf eine Herausforderung in der Gestaltung von KI-Agenten hin, die eine ausgewogene Integration von internem Reasoning und externen Werkzeugen erfordert.
Die Anwendung dieser Erkenntnisse führte zur Entwicklung des DemyAgent-4B, eines Modells mit lediglich 4 Milliarden Parametern. Die Ergebnisse sind bemerkenswert: 72,6 Prozent auf AIME2024, 70 Prozent auf AIME2025, 58,5 Prozent bei GPQA-Diamond Wissenschaftstests und 26,8 Prozent bei LiveCodeBench-v6 Programmier-Benchmarks. Diese Leistung positioniert den DemyAgent-4B fest unter Konkurrenten mit 14 bis 32 Milliarden Parametern und belegt, dass intelligentes Training rohe Rechenleistung übertreffen kann.
Die Forschenden haben die Trainingsdaten und Modellgewichte öffentlich zugänglich gemacht, um weitere Forschung und Entwicklung in diesem Bereich zu fördern. Dies ermöglicht der breiteren KI-Community, auf diesen Fortschritten aufzubauen und die Effizienz von KI-Agenten weiter zu optimieren.
Für Unternehmen, die KI-Technologien implementieren oder entwickeln, sind diese Forschungsergebnisse von großer Relevanz. Sie verdeutlichen, dass der Fokus auf die Qualität und Vielfalt der Trainingsdaten, das präzise Design von Lernalgorithmen und die Förderung einer deliberativen Denkweise bei KI-Agenten entscheidend ist. Statt ausschließlich auf immer größere Modelle zu setzen, kann eine strategische Optimierung dieser Faktoren zu einer signifikanten Leistungssteigerung führen – auch bei vergleichsweise kleineren Modellen.
Diese Erkenntnisse bieten konkrete Ansatzpunkte, um die Effizienz und Zuverlässigkeit von KI-Agenten in verschiedenen Anwendungsbereichen zu verbessern, sei es in der Automatisierung von Prozessen, der Entscheidungsfindung oder der Interaktion mit Nutzern. Die Verfügbarkeit der Forschungsdaten und Modellgewichte fördert zudem eine transparente und kollaborative Weiterentwicklung in der KI-Forschungsgemeinschaft.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen