Effiziente Parallelisierung agentischer Aufgaben durch neuen Ansatz der Aggregation

Kategorien:

No items found.

Freigegeben:

April 15, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Agentic Aggregation (AggAgent) ist ein neuer Ansatz zur effizienten Parallelisierung von komplexen, agentischen Aufgaben.
AggAgent übertrifft bestehende Aggregationsmethoden bei der Lösung langwieriger Aufgaben, insbesondere im Bereich der tiefgehenden Recherche.
Der Ansatz zeichnet sich durch geringen Overhead und Kosteneffizienz aus, da die Aggregationskosten im Rahmen eines einzelnen agentischen Durchlaufs bleiben.
Die Effektivität von Multi-Agenten-Systemen hängt stark von der Aufgabenstruktur ab; bei sequenziellen Aufgaben können sie die Leistung sogar mindern.
Ein prädiktives Modell ermöglicht die Auswahl der optimalen Agentenarchitektur basierend auf messbaren Aufgabeneigenschaften.

Skalierung Agentischer Aufgaben: Effizienzsteigerung durch Aggregation

Die Entwicklung von KI-Agenten, die in der Lage sind, komplexe Aufgaben wie die agentische Suche oder tiefgehende Forschungsarbeiten zu bewältigen, schreitet stetig voran. Ein zentrales Thema in diesem Bereich ist die effiziente Skalierung dieser Systeme, insbesondere wenn es um Aufgaben mit langer Bearbeitungsdauer geht. Hierbei werden oft mehrere Durchläufe parallel generiert und zu einer finalen Antwort zusammengeführt. Während sich solche Skalierungsansätze bereits im Bereich des "Chain-of-Thought Reasoning" bewährt haben, stellen agentische Aufgaben einzigartige Herausforderungen dar. Trajektorien sind oft lang, mehrstufig, durch den Einsatz von Tools erweitert und die Ergebnisse sind häufig offen.

Herausforderungen bei der Aggregation

Die bloße Aggregation finaler Antworten birgt das Risiko, wertvolle Informationen aus den Trajektorien zu verlieren. Umgekehrt würde das einfache Aneinanderreihen aller Trajektorien die Kontextfenster der Modelle überfordern. Um diesen Herausforderungen zu begegnen, wurde ein neuer Ansatz namens AggAgent vorgeschlagen. AggAgent fungiert als Aggregationsagent, der parallele Trajektorien als eine Art Umgebung betrachtet. Er ist mit schlanken Tools ausgestattet, die es ihm ermöglichen, potenzielle Lösungen zu überprüfen und Informationen über verschiedene Trajektorien hinweg zu durchsuchen, um diese bei Bedarf zu synthetisieren.

AggAgent in der Praxis: Überlegene Leistung und Effizienz

In umfassenden Tests, die sechs Benchmarks und drei Modellfamilien (GLM-4.7, Qwen3.5, MiniMax-M2.5) umfassten, zeigte AggAgent eine überlegene Leistung im Vergleich zu allen bestehenden Aggregationsmethoden. Die Leistungssteigerung betrug im Durchschnitt bis zu 5,3 % absolut und erreichte bei zwei tiefgehenden Forschungsaufgaben sogar 10,3 %. Bemerkenswert ist dabei der minimale Overhead, da die Kosten für die Aggregation im Rahmen eines einzelnen agentischen Durchlaufs blieben. Diese Ergebnisse deuten darauf hin, dass die agentische Aggregation einen effektiven und kosteneffizienten Ansatz für die parallele Skalierung zur Testzeit darstellt.

Grundlagen und Architekturen Agentischer Systeme

Agentische Systeme, die auf großen Sprachmodellen (LLMs) basieren, gewinnen zunehmend an Bedeutung für reale KI-Anwendungen. Sie sind in der Lage, zu argumentieren, zu planen und zu handeln. Trotz ihrer weiten Verbreitung sind die Prinzipien, die ihre Leistung bestimmen, noch nicht umfassend erforscht. Dies führt dazu, dass Praktiker oft auf Heuristiken statt auf fundierte Designentscheidungen angewiesen sind.

Definition agentischer Aufgaben

Um die Skalierung von Agenten zu verstehen, ist es entscheidend, zu definieren, was eine "agentische" Aufgabe ausmacht. Traditionelle statische Benchmarks messen das Wissen eines Modells, erfassen aber nicht die Komplexität der realen Anwendung. Agentische Aufgaben erfordern drei spezifische Eigenschaften:

Nachhaltige, mehrstufige Interaktionen mit einer externen Umgebung.
Iterative Informationsbeschaffung unter teilweiser Beobachtbarkeit.
Adaptive Strategieanpassung basierend auf Umweltfeedback.

Kanonische Agentenarchitekturen

In einer kontrollierten Evaluierung von 180 Agentenkonfigurationen wurden fünf kanonische Architekturen untersucht:

Einzelagentensystem (SAS): Ein einzelner Agent, der alle Denk- und Handlungsschritte sequenziell mit einem einzigen Speicherstrom ausführt.
Unabhängiges System: Mehrere Agenten arbeiten parallel an Teilaufgaben, ohne zu kommunizieren, und aggregieren die Ergebnisse erst am Ende.
Zentralisiertes System: Ein zentraler Orchestrator delegiert Aufgaben an Mitarbeiter und synthetisiert deren Ergebnisse.
Dezentralisiertes System: Ein Peer-to-Peer-Netzwerk, in dem Agenten direkt miteinander kommunizieren, um Informationen auszutauschen und Konsens zu erzielen.
Hybrides System: Eine Kombination aus hierarchischer Aufsicht und Peer-to-Peer-Koordination, um die zentrale Kontrolle mit flexibler Ausführung in Einklang zu bringen.

Diese Architekturen wurden über vier diverse Benchmarks evaluiert, darunter Finanzanalyse (Finance-Agent), Web-Navigation (BrowseComp-Plus), Spieleplanung (PlanCraft) und Workflow-Ausführung (Workbench), um die Auswirkungen von Architektur und Aufgabenmerkmalen zu isolieren.

Ergebnisse der Evaluierung: Der Mythos "mehr Agenten"

Die Ergebnisse zeigen ein komplexes Verhältnis zwischen Modellfähigkeiten und Koordinationsstrategie. Während die Leistung mit fähigeren Modellen tendenziell ansteigt, sind Multi-Agenten-Systeme keine universelle Lösung. Sie können die Leistung erheblich steigern oder unerwartet mindern, je nach spezifischer Konfiguration.

Aufgabenabhängige Leistung: Bei parallelisierbaren Aufgaben wie der Finanzanalyse führte eine zentralisierte Koordination zu einer Leistungssteigerung von 80,9 % gegenüber einem Einzelagenten. Bei sequenziellen Aufgaben wie der Planung in PlanCraft verringerte jede Multi-Agenten-Variante die Leistung um 39-70 %.
Werkzeug-Koordinations-Kompromiss: Bei Aufgaben, die viele Tools erfordern, steigt der "Koordinationsaufwand" überproportional.
Fehlerverstärkung: Unabhängige Multi-Agenten-Systeme verstärkten Fehler um das 17,2-fache, da Fehler ungeprüft weitergegeben wurden. Zentralisierte Systeme konnten diese Verstärkung auf das 4,4-fache begrenzen, da der Orchestrator als "Validierungsengpass" fungierte.

Skalierungsprinzipien und prädiktive Modelle

Die Leistungsfähigkeit agentischer Systeme variiert erheblich, von einer Verbesserung von +81 % bis zu einer Verschlechterung von -70 %, abhängig von der Aufgabenstruktur und der Koordinationsarchitektur. Diese Varianz korreliert mit messbaren Eigenschaften wie der Zerlegbarkeit der Aufgabe, der Tool-Komplexität und der Grundschwierigkeit.

Mixed-Effects-Modell zur Varianzklärung

Ein Skalierungsprinzip wurde auf 180 Konfigurationen angewendet, das die Leistung agentischer Systeme mit vier Kategorien von Prädiktoren in Beziehung setzt:

Basismodellfähigkeit (Intelligenzindex)
Systemkonfiguration (Anzahl der Agenten)
Aufgabeneigenschaften (Anzahl der Tools, Single-Agent-Baseline)
Empirisch gemessene Koordinationsmetriken (Effizienz, Overhead, Fehlerverstärkung, Nachrichtendichte, Redundanz)

Dieses Modell erklärt 52,4 % der kreuzvalidierten Varianz und übertrifft einfachere Alternativen erheblich. Es enthält keine datensatzspezifischen Parameter, was Vorhersagen für ungesehene Aufgabendomänen ermöglicht.

Dominierende Effekte

Effizienz-Tools-Interaktion: Aufgaben mit vielen Tools leiden unverhältnismäßig stark unter Multi-Agenten-Ineffizienz. Die Effizienzstrafe ist bei Multi-Agenten-Architekturen 2- bis 6-mal höher als bei Einzelagentensystemen.
Overhead und Aufgabenkomplexität: Multi-Agenten-Architekturen verursachen einen erheblichen Overhead (58 % bis 515 %). Dieser Overhead interagiert mit der Anzahl der Tools und führt zu steigenden Kosten für komplexe Aufgaben.
Intelligenz: Eine höhere Modellfähigkeit führt linear zu einer besseren Leistung über alle Architekturen hinweg.
Redundanz: Redundanz bietet marginale Vorteile bei der Fehlerkorrektur, insbesondere wenn mehr Agenten beteiligt sind. Dieser Effekt ist jedoch gering im Vergleich zu den Overhead-Strafen und Effizienzverlusten.

Quantitative Architekturauswahl

Das Skalierungsprinzip dient als prädiktives Werkzeug für das Architekturentwurf. Anhand von Aufgabenmerkmalen und Modellfähigkeiten können Praktiker die erwartete Leistung für jede Architektur berechnen. Beispielsweise bevorzugen Planungsaufgaben Einzelagenten, während Analyseaufgaben zentralisierte Multi-Agenten bevorzugen. Werkzeugintensive Aufgaben profitieren von dezentralisierten Multi-Agenten. Diese quantitative Entscheidungsfindung ersetzt heuristische Ansätze und ermöglicht eine 87%ige Genauigkeit bei der Auswahl der optimalen Architektur für ungesehene Konfigurationen.

Koordinationseffizienz, Fehlerdynamik und Informationstransfer

Die systematische Charakterisierung von Koordinationseffizienz, Fehlerpropagationsmechanismen und Informationstransfer ist entscheidend für das Verständnis der Leistung von Agentensystemen. Alle Multi-Agenten-Systeme (MAS) und Einzelagentensysteme (SAS) wurden hinsichtlich des gesamten Token-Budgets und des Zugriffs auf Tool-Aufrufe abgeglichen, um die Koordinationseffekte zu isolieren.

Anzahl der Durchläufe und Nachrichtendichte

Power-Law-Skalierung der Durchläufe: Die Gesamtzahl der Denk-Durchläufe wächst exponentiell mit der Anzahl der Agenten. Hybride Systeme benötigen beispielsweise 6,2-mal mehr Durchläufe als SAS. Dies deutet auf eine harte Ressourcengrenze hin, bei der die Kommunikationskosten die Denkfähigkeit übersteigen.
Logarithmische Sättigung der Nachrichtendichte: Die Erfolgsrate folgt einer logarithmischen Beziehung zur Nachrichtendichte. Die Leistung stagniert ab einer bestimmten Nachrichtendichte, da zusätzliche Nachrichten eher Redundanz als neue Informationen liefern.

Fehlerabsorption und -taxonomie

Fehlerabsorptionsmechanismen, wie iterative Überprüfung in zentralisierten und hybriden Architekturen, reduzieren die Fehlerrate erheblich. Bei dezentralisierten Architekturen sorgen Peer-Diskussionen für ähnliche Überprüfung. Unabhängige MAS zeigen keine Fehlerkorrektur.

Eine Fehler-Taxonomie identifizierte vier Kategorien:

Logische Widersprüche: Zentralisierte und dezentralisierte Systeme reduzieren diese Fehler erheblich.
Numerische Abweichung: Zentralisierte/dezentralisierte Systeme reduzieren diese Fehler, während hybride Systeme sie verstärken können.
Kontextauslassung: Zentralisierte Systeme sind hier am effektivsten.
Koordinationsfehler: Treten nur in MAS auf, insbesondere in hybriden Systemen, wo die Protokollkomplexität zu Implementierungsfehlern führen kann.

Diese Muster zeigen, dass Independent-Architekturen Fehler um das 17,2-fache verstärken, während zentralisierte Architekturen sie auf das 4,4-fache begrenzen können.

Informationsgewinn und wirtschaftliche Effizienz

Informationsgewinn (IG): In strukturierten Domänen korreliert IG stark mit dem MAS-SAS-Unterschied. In offenen Domänen ist der Informationsgewinn gering, was die Effektivität von MAS begrenzt.
Wirtschaftliche Effizienz: Die Token-Effizienz (Erfolg pro 1.000 Token) variiert stark. SAS ist am effizientesten, während hybride Systeme die geringste Effizienz aufweisen. Die Kosten pro Erfolg variieren auch je nach Modellfamilie.

Die architekturellen Präferenzen variieren je nach Modellfamilie, was auf fundamentale Unterschiede in den Aufmerksamkeitsmechanismen und der Repräsentationsgeometrie hindeutet.

Grenzen und Zukunftsperspektiven

Obwohl diese Arbeit quantitative Skalierungsprinzipien für Agentensysteme über verschiedene Architekturen und Modellfamilien hinweg liefert, bleiben einige Einschränkungen bestehen und eröffnen zukünftige Forschungsfelder.

Skalierung und Komplexität

Die Untersuchung konzentrierte sich auf kanonische Koordinationsstrukturen und eine begrenzte Anzahl von Agenten (bis zu neun). Die empirischen Ergebnisse deuten jedoch darauf hin, dass die Skalierung zu größeren Kollektiven auf fundamentale Barrieren stoßen könnte. Der gemessene Kommunikations-Overhead wächst überproportional mit der Agentenanzahl, und die Koordinationseffizienz nimmt jenseits moderater Teamgrößen erheblich ab. Es bleibt eine offene Frage, ob solche Kollektive nützliche emergente Verhaltensweisen wie spontane Spezialisierung oder hierarchische Selbstorganisation zeigen können, oder ob Kommunikationsengpässe dominieren werden. Dies gleicht Phasenübergängen in komplexen adaptiven Systemen.

Heterogenität und Diversität

Die Studie untersuchte die Heterogenität der Fähigkeiten durch die Mischung von Modellen unterschiedlicher Intelligenzniveaus innerhalb derselben LLM-Familie. Alle Agenten teilten jedoch identische Basisarchitekturen, die sich nur in Umfang und Rollenprompts unterschieden. Zukünftige Arbeiten sollten Teams untersuchen, die grundlegend unterschiedliche Modellarchitekturen, domänenspezifisches Fine-Tuning oder komplementäre Denkstrategien kombinieren. Ziel ist es, zu verstehen, wann epistemische Diversität zu Robustheit statt zu Koordinationsrauschen führt.

Tool-intensive Umgebungen

Die Analyse zeigte, dass tool-intensive Umgebungen einen primären Fehlerfall für die Multi-Agenten-Koordination darstellen, mit signifikanten negativen Wechselwirkungen zwischen der Tool-Anzahl und der Systemeffizienz. Die Entwicklung spezialisierter Koordinationsprotokolle für tool-intensive Aufgaben, wie explizite Tool-Zugriffsplanung, fähigkeitsbewusstes Aufgaben-Routing oder hierarchische Tool-Delegation, stellt eine wichtige Richtung zur Verbesserung der Multi-Agenten-Zuverlässigkeit dar.

Prompt-Optimierung und Benchmarks

Die Prompts wurden für die experimentelle Validität über alle Bedingungen hinweg identisch gehalten, jedoch nicht spezifisch für jedes Modell oder jede Modellfamilie optimiert. Angesichts der bekannten Empfindlichkeit von LLM-Verhalten gegenüber der Prompt-Formulierung könnte eine architekturspezifische Prompt-Optimierung zu anderen Skalierungsmerkmalen führen. Die Analyse umfasste vier agentische Benchmarks. Obwohl diese in der Aufgabenstruktur vielfältig sind (deterministische Tool-Nutzung, quantitatives Denken, sequentielle Planung, dynamische Web-Navigation), erfassen sie möglicherweise nicht das gesamte Spektrum agentischer Aufgabenmerkmale. Zusätzliche Umgebungen, insbesondere solche mit intermediären Merkmalen oder neuartigen Aufgabenstrukturen, würden das Vertrauen in die identifizierten Schwellenwerte und Skalierungsprinzipien stärken.

Wirtschaftliche Machbarkeit und reale Anwendungen

Die wirtschaftliche Machbarkeit der Multi-Agenten-Skalierung bleibt eine praktische Hürde. Der Token-Verbrauch und die Latenz steigen erheblich mit der Agentenanzahl, oft ohne proportionale Leistungssteigerung. Zukünftige Arbeiten sollten effizienzorientierte Designs erforschen, wie spärliche Kommunikation, frühzeitige Abbruchmechanismen oder destillierte Koordinatormodelle, um Multi-Agenten-Einsätze in großem Maßstab wirtschaftlich tragfähig zu machen. Darüber hinaus erfassen aktuelle agentische Benchmarks dynamische textbasierte Umgebungen, beinhalten aber noch keine langwierigen zeitlichen Abhängigkeiten oder reale Feedback-Schleifen. Die Integration von verkörperten oder multimodalen Umgebungen (z. B. Robotersteuerung, medizinische Triage, soziale Interaktion mit mehreren Benutzern) wird testen, ob die beobachteten Skalierungsprinzipien über symbolische Domänen hinaus verallgemeinerbar sind.

Schlussfolgerung

Die vorliegende Studie liefert quantitative Skalierungsprinzipien für agentische Systeme, basierend auf 180 kontrollierten Experimenten, die drei LLM-Familien und vier agentische Benchmarks umfassten. Sie zeigt auf, dass die Leistung von Multi-Agenten-Systemen durch messbare Kompromisse bestimmt wird: einen Kompromiss zwischen Tool-Nutzung und Koordination, bei dem tool-intensive Aufgaben unter Koordinations-Overhead leiden; eine Sättigung der Fähigkeiten, bei der die Koordination jenseits von etwa 45 % der Single-Agent-Baselines abnehmende Erträge liefert; und eine architekturabhängige Fehlerverstärkung, die von 4,4-fach (zentralisiert) bis 17,2-fach (unabhängig) reicht. Die Leistungssteigerungen variieren dramatisch je nach Aufgabenstruktur, von +80,9 % beim Finance Agent bis zu -70,0 % bei PlanCraft, was demonstriert, dass die Vorteile der Koordination von der Zerlegbarkeit der Aufgabe und nicht von der Teamgröße abhängen.

Es wurde ein prädiktives Modell (R²=0,524) entwickelt, das eine Genauigkeit von 87 % bei der Auswahl optimaler Architekturen für nicht berücksichtigte Konfigurationen erreicht. Eine Out-of-Sample-Validierung an GPT-5.2, das nach dieser Studie veröffentlicht wurde, bestätigt, dass vier von fünf Skalierungsprinzipien mit einem MAE von 0,071 verallgemeinerbar sind. Diese Ergebnisse bieten Praktikern eine quantitative Anleitung für die Architekturauswahl basierend auf messbaren Aufgabeneigenschaften.

Bibliographie

- Lee, Y., Yen, H., Ye, X., & Chen, D. (2026). Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks. arXiv preprint arXiv:2604.11753. - Kim, Y., Gu, K., Park, C., Schmidgall, S., Heydari, A. A., Yan, Y., ... & Liu, X. (2025). Towards a Science of Scaling Agent Systems. arXiv preprint arXiv:2512.08296. - Zhang, Y., Jiang, S., Li, R., Tu, J., Su, Y., Deng, L., ... & Lin, J. (2026). DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints. arXiv preprint arXiv:2601.18137. - Zhang, E., Zhu, E., Bansal, G., Fourney, A., Mozannar, H., & Gerrits, J. (2025). Optimizing Sequential Multi-Step Tasks with Parallel LLM Agents. arXiv preprint arXiv:2507.08944. - Google Research Blog (2026). Towards a science of scaling agent systems: When and why agent systems work. - Sciety (2025). Towards a Science of Scaling Agent Systems. - Hugging Face Papers (2026). Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks. - Hugging Face Papers (2025). Towards a Science of Scaling Agent Systems.