Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren beeindruckende Fortschritte in Bereichen wie logischem Denken, der Generierung von Erkenntnissen und der Nutzung von Werkzeugen erzielt. Trotz dieser Errungenschaften stoßen LLMs an ihre Grenzen, wenn es darum geht, komplexe Aufgaben über eine sehr große Anzahl von aufeinanderfolgenden Schritten hinweg fehlerfrei auszuführen. Die inhärente Fehlerrate der Modelle führt dazu, dass Prozesse, die sich über Hunderte oder Tausende von Schritten erstrecken, unweigerlich scheitern. Eine aktuelle Forschungsarbeit von Elliot Meyerson et al. stellt nun einen neuen Ansatz vor, der dieses Problem zu adressieren scheint: MAKER (Maximal Agentic decomposition, K-threshold Error mitigation, and Red-flagging).
Die Fähigkeit von LLMs, komplexe Aufgaben zu bewältigen, nimmt mit der Länge der Aufgabenkette ab. Selbst eine geringe Fehlerrate pro Schritt summiert sich exponentiell, was bei Aufgaben mit vielen abhängigen logischen Schritten zu einem kompletten Scheitern führen kann. Dies wurde beispielsweise in Experimenten mit dem "Türme von Hanoi"-Benchmark deutlich, wo selbst fortgeschrittene Modelle bei mehr als etwa acht Scheiben, was einigen Hundert Schritten entspricht, versagten. Diese "Zuverlässigkeitsklippe" stellt ein fundamentales Hindernis für den Einsatz von KI in realen, großskaligen Prozessen dar, die Millionen präzise ausgeführter Aktionen erfordern, wie etwa in der Fertigung, Logistik, im Finanzwesen oder Gesundheitswesen. Die Notwendigkeit einer fehlerfreien Ausführung über lange Zeiträume ist hierbei entscheidend.
Anstatt die Modelle selbst immer größer und "intelligenter" zu machen, verfolgt MAKER einen orthogonalen Ansatz. Das System basiert auf der Idee der "Massively Decomposed Agentic Processes" (MDAPs), die drei Kernkomponenten umfassen:
Die Aufgabe wird in die kleinstmöglichen Unteraufgaben zerlegt. Im Idealfall ist jeder Mikroagent für eine einzige, atomare Aktion verantwortlich. Diese Modularität hat mehrere Vorteile:
Um die Zuverlässigkeit auf der Ebene der Unteraufgaben zu gewährleisten, wird ein Abstimmungsverfahren eingesetzt. Mehrere Agenten versuchen, denselben Schritt parallel zu lösen. Das System akzeptiert die Aktion, die zuerst eine bestimmte Anzahl (k) mehr Stimmen als jede andere Alternative erhält. Dieses statistische Korrekturverfahren ermöglicht eine hohe Wahrscheinlichkeit der korrekten Ausführung, selbst wenn die einzelnen Agenten eine gewisse Fehlerrate aufweisen. Die theoretische Analyse zeigt, dass die erforderliche Anzahl der Stimmen (k) nur logarithmisch mit der Gesamtzahl der Schritte wächst, was eine effiziente Skalierung ermöglicht.
Zusätzlich zur Abstimmung identifiziert MAKER "rote Flaggen" in den Ausgaben der LLMs. Dies sind Anzeichen für Unzuverlässigkeit, wie zum Beispiel übermäßig lange Antworten oder inkorrekte Formatierungen. Solche Ausgaben werden automatisch verworfen und der Schritt wird neu bewertet. Die Hypothese ist, dass "schlechtes" Verhalten in LLMs korreliert ist. Durch das Entfernen dieser "roten Flaggen" wird nicht nur die Erfolgsrate pro Schritt erhöht, sondern auch das Risiko korrelierter Fehler reduziert, die das Abstimmungssystem überfordern könnten.
Um die Wirksamkeit von MAKER zu demonstrieren, wurde das System auf das "Türme von Hanoi"-Problem mit 20 Scheiben angewendet. Diese Aufgabe erfordert exakt 1.048.575 abhängige Schritte, wobei jeder einzelne Zug korrekt sein muss. Für die Implementierung wurde das Modell gpt-4.1-mini verwendet, das aufgrund seiner Kosteneffizienz und vergleichbaren Fehlerraten gegenüber größeren Modellen ausgewählt wurde. Jedes Mikroagent erhielt die minimale Kontextinformation, um einen einzelnen Zug auszuführen und den resultierenden Zustand zu ermitteln.
Die Ergebnisse zeigten, dass MAKER die gesamte Aufgabe mit über einer Million LLM-Schritten fehlerfrei bewältigte. Dies stellt die erste erfolgreiche Demonstration dieser Art dar und beweist, dass die Skalierung von LLM-basierten Systemen auf große Zeithorizonte möglich ist. Die Analyse der Konvergenz zeigte, dass die Anzahl der unentschiedenen Schritte exponentiell mit jeder Stichprobenrunde abnahm, was die theoretischen Vorhersagen bestätigte. Das Red-Flagging trug maßgeblich dazu bei, korrelierte Fehler zu reduzieren und die Robustheit des Systems zu erhöhen.
Die MAKER-Forschung deutet auf einen Paradigmenwechsel in der KI-Systementwicklung hin. Anstatt sich auf die kontinuierliche Verbesserung einzelner, monolithischer LLMs zu konzentrieren, kann Zuverlässigkeit und Skalierbarkeit durch intelligente Systemarchitekturen erreicht werden. Dies hat weitreichende Implikationen:
Zukünftige Arbeiten könnten die Anwendung von MAKER auf kreativere Denkprozesse erweitern, bei denen nicht nur Aktionen, sondern auch die Ideenfindung, Planung und Verifizierung zerlegt und korrigiert werden. Weiterhin ist die Erforschung von Methoden zur weiteren Dekorrelation von Fehlern und die Anwendung des Frameworks auf Aufgaben mit unbekannter Schrittzahl von Interesse. Die Fähigkeit, komplexe Probleme in kleinste, kooperierende Agenten zu zerlegen und deren Arbeit durch prinzipielle Fehlerkorrektur zu rekombinieren, könnte es KI ermöglichen, weit über die Grenzen einzelner Modelle hinaus zu skalieren und zuverlässige, kosteneffiziente und sichere Lösungen für reale Herausforderungen zu bieten.
Die Forschungsarbeit zu MAKER demonstriert einen bedeutenden Fortschritt in der Fähigkeit von LLM-basierten Systemen, komplexe, langkettige Aufgaben mit hoher Zuverlässigkeit zu bewältigen. Durch die Einführung von "Massively Decomposed Agentic Processes" (MDAPs), die eine extreme Zerlegung von Aufgaben, effiziente Fehlerkorrektur durch Abstimmung und proaktives "Red-Flagging" umfassen, wird ein Weg aufgezeigt, wie die Skalierbarkeit und Fehlerfreiheit von KI-Systemen auf ein Niveau gebracht werden kann, das für den Einsatz in kritischen Geschäftsprozessen erforderlich ist. Dieser Ansatz könnte die Entwicklung von KI-Anwendungen in vielen Branchen maßgeblich beeinflussen und eine Alternative zur reinen Vergrößerung von Modellen darstellen, indem er auf intelligente Systemarchitektur und methodische Fehlerbehandlung setzt.
Bibliography
- Meyerson, E., Paolo, G., Dailey, R., Shahrzad, H., Francon, O., Hayes, C. F., Qiu, X., Hodjat, B., & Miikkulainen, R. (2025). Solving a Million-Step LLM Task with Zero Errors. arXiv preprint arXiv:2511.09030. - Cognizant AI Lab. (2025, November 13). MAKER Achieves Million-Step, Zero-Error LLM Reasoning. Cognizant. - Hugging Face. (2025, November 12). Paper page - Solving a Million-Step LLM Task with Zero Errors. - AlphaXiv. (2025, November 12). Solving a Million-Step LLM Task with Zero Errors. - ChatPaper. (2025, November 13). Solving a Million-Step LLM Task with Zero Errors. - Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. (2023). Let's Verify Step by Step. arXiv preprint arXiv:2305.20050. - Kumar, A., Zhuang, V., Agarwal, R., Su, Y., Co-Reyes, J. D., Singh, A., Baumli, K., Iqbal, S., Bishop, C., Roelofs, R., Zhang, L. M., McKinney, K., Shrivastava, D., Paduraru, C., Tucker, G., Precup, D., Behbahani, F., & Faust, A. (2024). Training Language Models to Self-Correct via Reinforcement Learning. arXiv preprint arXiv:2409.12917. - Zhong, Q., Wang, K., Xu, Z., Liu, J., Ding, L., & Du, B. (2024). Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems. arXiv preprint arXiv:2404.14963.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen