Effiziente Kontextkomprimierung für Terminal-Agenten mit TACO

Kategorien:

No items found.

Freigegeben:

April 24, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

TACO ist ein selbstlernendes Framework zur Komprimierung von Terminal-Agenten.
Es reduziert den Token-Verbrauch in Langzeit-Aufgaben um ca. 10 %.
TACO verbessert die Leistungsfähigkeit von Agenten auf Benchmarks um 1-4 %.
Das Framework lernt und verfeinert Komprimierungsregeln dynamisch.
Es ist "plug-and-play"-fähig und mit bestehenden Agenten-Frameworks kompatibel.
TACO zeigt eine starke Generalisierungsfähigkeit über verschiedene Benchmarks und Modelle hinweg.

Die fortschreitende Entwicklung von Sprachmodellen (Large Language Models, LLMs) hat die Forschung zunehmend auf komplexe, terminalzentrierte Agentenaufgaben mit langen Handlungsketten verlagert. Bei diesen Aufgaben wird häufig das rohe Umgebungsfeedback in der Interaktionshistorie gespeichert, um zukünftige Entscheidungen zu unterstützen. Dies führt jedoch zu erheblichen Redundanzen und einem exponentiell steigenden Token-Verbrauch, was das langfristige Denken erschwert. Obwohl Beobachtungskomprimierung dieses Problem mindern kann, ist die Heterogenität von Terminalumgebungen eine Herausforderung für heuristikbasierte oder fest vorgegebene Methoden. Hier setzt TACO an, ein selbstlernendes Framework zur Komprimierung von Terminal-Agenten, das darauf abzielt, diese Herausforderungen zu adressieren.

Die Herausforderung der Kontextredundanz bei Terminal-Agenten

Im Bereich der Softwareentwicklung ermöglichen moderne Code-LLMs zunehmend leistungsfähige Software-Engineering-Agenten. Insbesondere terminalzentrierte Aufgaben, wie das Debugging von Repositories, Kompilierung und Umgebungsinteraktion, stellen hohe Anforderungen an die Entscheidungsfindung über lange Zeiträume hinweg in realen Ausführungsumgebungen. Trotz bemerkenswerter Fortschritte kämpfen bestehende Terminal-Agenten weiterhin mit mehrstufigen Überlegungen unter langen und oft "verrauschten" Kontexten.

Ein zentrales Problem vieler Terminal-Agenten liegt darin, dass sie rohe Terminalausgaben direkt in nachfolgende Entscheidungsprozesse einspeisen. In realen Software-Engineering-Workflows enthalten diese Beobachtungen häufig erhebliche redundante Informationen, wie z. B. ausführliche Protokolle, wiederholte Build-Traces und irrelevante Befehlsausgaben. Diese Redundanz erhöht nicht nur die Rechenkosten, sondern kann auch kritische Signale überdecken und das langfristige Denken behindern, was letztlich die Aufgabenleistung beeinträchtigt.

Bestehende Methoden zur Verbesserung der Kontexteffizienz von Terminal-Agenten sind begrenzt. Statische Komprimierungsstrategien, einschliesslich promptbasierter Komprimierung, von Experten erstellter Regeln und LLM-basierter Komprimierung, führen oft nur zu begrenzten oder instabilen Verbesserungen über verschiedene Aufgaben hinweg. Dies liegt daran, dass Terminalumgebungen sehr heterogen sind und die erforderlichen Komprimierungsmuster je nach Repository, Befehl und Ausführungsstatus erheblich variieren können. Trainingsbasierte Methoden, wie beispielsweise SWE-Pruner, erfordern zusätzliches Training und sind oft auf spezifische Aufgaben zugeschnitten, was ihre Anwendbarkeit auf breitere Terminalumgebungen einschränkt. Eine effektive Komprimierung der Terminalausgaben sollte sich daher an die aktuelle Umgebung anpassen und während der Agenteninteraktion kontinuierlich verfeinert werden, anstatt sich auf feste Heuristiken oder aufgabenspezifisches Kompressortraining zu verlassen.

TACO: Ein selbstlernendes Framework für effiziente Kontextkomprimierung

Um die genannten Herausforderungen zu bewältigen, wurde TACO (Terminal Agent Compression via Self-Evolving Observation Context Compression) entwickelt. Es handelt sich um ein "plug-and-play"-fähiges, selbstlernendes Framework, das Komprimierungsregeln automatisch aus Interaktionsverläufen von Terminal-Agenten entdeckt und kontinuierlich verfeinert. Das Framework ist darauf ausgelegt, die Effizienz und Leistungsfähigkeit von Agenten in terminalzentrierten Aufgaben zu optimieren.

Architektur und Funktionsweise

TACO besteht aus drei Hauptkomponenten, die während des Ausführungszyklus eines Terminal-Agenten zusammenwirken:

Terminal Output Compression: Diese Komponente wendet die entwickelten Regeln an, um Terminalausgaben in jedem Schritt zu komprimieren. Nachdem der Host-Agent einen Befehl ausgeführt und die rohe Terminalausgabe erhalten hat, liefert TACO eine komprimierte Beobachtung basierend auf dem aufgabenspezifischen Regelsatz. Ausgaben, die explizite Fehler- oder Fehlersignale enthalten (als "kritisch" eingestuft), bleiben unverändert. Für nicht-kritische Ausgaben wird die Komprimierung durch einen konservativen, regelbasierten Komprimierungsoperator durchgeführt.
Intra-Task Rule Set Evolution: Während der Bearbeitung einer Aufgabe aktualisiert TACO den aufgabenspezifischen Regelsatz dynamisch. Wenn eine Terminalausgabe nicht von einer aktiven Regel abgedeckt wird, wird sie als "unentdeckte Ausgabe" behandelt. Ein LLM wird dann aufgefordert, eine neue Regel zu generieren, die dem Regelsatz für nachfolgende Schritte hinzugefügt wird. TACO aktualisiert Regeln auch basierend auf implizitem Feedback des Agentenverhaltens, beispielsweise wenn der Agent nach dem vollständigen Output fragt oder denselben Befehl wiederholt, was auf eine Überkomprimierung hinweisen kann. In solchen Fällen werden die beteiligten Regeln unterdrückt und durch konservativere Varianten ersetzt.
Global Rule Pool Evolution: Um wiederverwendbares Komprimierungswissen über verschiedene Aufgaben hinweg zu akkumulieren, schreibt TACO effektive aufgabenspezifische Regeln zurück in einen globalen Regelpool und aktualisiert deren globale Statistiken. Dieser Pool dient als persistentes Repository für wiederverwendbares Komprimierungswissen. Für jede neue Aufgabe initialisiert TACO die aufgabenspezifische Komprimierung aus diesem Pool und passt sie online an den aktuellen Kontext an. Jede Regel im globalen Pool ist mit einem Ranking-Score und einem globalen Konfidenzwert versehen, der ihre historische Zuverlässigkeit widerspiegelt.

Konvergenzkriterium und Hyperparameter

TACO verwendet ein Konvergenzkriterium, die sogenannte "Retention", um zu bestimmen, wann der Selbstentwicklungsprozess stabilisiert ist. Diese Metrik misst den Anteil der Regeln, die nach einer Runde der Evolution im Top-K des globalen Regelpools verbleiben. Ein höherer Retention-Wert deutet auf eine stabilere Regel-Frontier hin.

Die Auswahl von Hyperparametern wie der Batch-Grösse für die parallele Ausführung und dem Top-K-Wert für die aufgabenspezifische Regelinitialisierung beeinflusst die Interaktion zwischen dem Intra-Task-Regelpool und dem Global Rule Pool und somit die Gesamtleistung. Kleinere Batch-Grössen können zu höherer Genauigkeit führen, da neu gelernte Regeln häufiger zurückgeschrieben und von nachfolgenden Aufgaben wiederverwendet werden können. Grössere Batch-Grössen verbessern hingegen den parallelen Durchsatz und die Laufzeiteffizienz, verzögern jedoch die Anwendung neu erworbener Regeln auf spätere Aufgaben.

Leistungsanalyse und Effizienzgewinne

Die Wirksamkeit von TACO wurde in umfangreichen Experimenten auf verschiedenen Benchmarks und mit unterschiedlichen Sprachmodellen evaluiert. Die Ergebnisse zeigen konsistente Verbesserungen sowohl in der Agentenleistung als auch in der Token-Effizienz.

Verbesserung der Agentenleistung

Auf TerminalBench 1.0 und 2.0 erzielten Modelle, die TACO integrierten, konsistente Leistungssteigerungen von 1 % bis 4 % bei starken Backbone-Modellen wie DeepSeek-V3.2, MiniMax-M2.5 und Qwen3-Coder-480B. Dies deutet darauf hin, dass die Komprimierung von Terminalbeobachtungen in jedem Schritt die Agentenleistung effektiv verbessern kann. Die Verbesserungen werden auf die Reduzierung der Kontextredundanz zurückgeführt, die es den Modellen ermöglicht, sich effektiver auf aufgabenrelevante Informationen zu konzentrieren.

Optimierung der Token-Effizienz

TACO reduziert die Token-Kosten pro Schritt für die meisten Modelle mit mehr als 200 Milliarden Parametern (z. B. Qwen3-Coder-480B und DeepSeek-V3.2) um etwa 10 %, ohne die durchschnittliche Schrittanzahl zu verändern. Diese Modelle mit hoher Kapazität nutzen den komprimierten Kontext effizient, um stabile Argumentationspfade aufrechtzuerhalten. Kleinere Modelle mit weniger als 40 Milliarden Parametern zeigten nur geringfügige Reduzierungen der Token pro Schritt. Bei diesen kleineren Modellen verbessert TACO jedoch deren Umgebungsverständnis erheblich, was eine erfolgreiche mehrstufige Ausführung ermöglicht und die Gesamtzahl der Interaktionsschritte und den Token-Verbrauch im Vergleich zu frühen Fehlschlägen der Baselines erhöht.

Wird die Genauigkeit unter festen Token-Budgets betrachtet, zeigt sich, dass TACO über alle sechs getesteten Modelle hinweg eine höhere Genauigkeit bei gleichen Token-Kosten erreicht. Für grosse Modelle werden stabile Gewinne von 1 % bis 2 % erzielt, während kleinere Modelle Verbesserungen von 2 % bis 3 % aufweisen.

Generalisierungsfähigkeit und Robustheit

TACO wurde auch auf externen Benchmarks wie SWE-Bench Lite, CompileBench, DevEval und CRUST-Bench evaluiert. Die Ergebnisse bestätigen eine starke Generalisierungsfähigkeit des Frameworks, das über verschiedene Agenten-Frameworks und Backbone-Modelle hinweg konsistente Leistungsverbesserungen und Token-Kostensenkungen erzielt. Dies unterstreicht, dass TACO eine generelle und skalierbare Lösung für die Kontextkomprimierung von Terminal-Agenten darstellt.

Die Analyse der Pass@k-Metrik, die die potenzielle Fähigkeit von Agenten bewertet, zeigt, dass TACO die Baseline über alle Modelle und K-Werte hinweg konsistent übertrifft. Dies deutet darauf hin, dass die Komprimierungsregeln von TACO nicht nur die Genauigkeit pro Versuch verbessern, sondern auch die Vielfalt der Lösungen erhöhen.

Ablationsstudien

Ablationsstudien, bei denen evolutionäre Komponenten von TACO entfernt wurden, zeigten, dass statische Methoden oder Regelsätze, die nur aus einer einzigen Aufgabe abgeleitet wurden, weniger effektiv sind. Nur die kontinuierliche Evolution eines globalen Regelpools, wie sie TACO implementiert, kann hochwertige und generalisierbare Regeln akkumulieren und somit optimale Leistung und Generalisierbarkeit gewährleisten.

TACO transformiert die naive Trunkierung hin zu einer domänenadaptiven, semantischen Filterung. Durch die Initialisierung wiederverwendbarer Regeln aus dem globalen Regelpool und die Online-Entwicklung neuer Regeln für nicht abgedeckte Ausgaben bewahrt TACO aufgabenkritische Signale, während es grosse Mengen repetitiven Terminal-Rauschens filtert. Dies erklärt die beobachteten Leistungssteigerungen.

Fazit

TACO stellt einen fortschrittlichen Ansatz zur Bewältigung der Herausforderungen dar, die mit der Kontextredundanz und den hohen Token-Kosten bei terminalzentrierten KI-Agentenaufgaben verbunden sind. Durch die Einführung eines selbstlernenden Frameworks, das Komprimierungsregeln dynamisch entdeckt, verfeinert und wiederverwendet, ermöglicht TACO eine adaptive und trainingsfreie Kontextkomprimierung über diverse Terminalumgebungen hinweg.

Die empirischen Ergebnisse über verschiedene Benchmarks und Modelle hinweg bestätigen, dass TACO die Leistung von Agenten signifikant verbessert und gleichzeitig die Token-Effizienz optimiert. Dies ist insbesondere für Langzeit-Argumentationsaufgaben von Bedeutung, bei denen das Entfernen redundanter Kontextinformationen die Fähigkeit des Modells, sich auf kritische Details zu konzentrieren, massgeblich stärkt.

Die Generalisierungsfähigkeit und die Robustheit des Frameworks, selbst unter variierenden Bedingungen und mit unterschiedlichen Modellgrössen, unterstreichen das Potenzial von TACO als skalierbare Lösung. Es bietet einen praktischen Weg zu effizienteren und effektiveren Terminal-Agenten und trägt dazu bei, die aktuellen Engpässe in der Entwicklung von KI-Agenten zu überwinden.

Zukünftige Perspektiven

Die Erkenntnisse aus der Entwicklung und Evaluation von TACO deuten auf weitere Forschungsrichtungen hin. Dazu gehören die weitere Verfeinerung der Regelgenerierung und -anpassung, die Untersuchung der Übertragbarkeit von Regeln auf noch breitere und komplexere Domänen sowie die Integration von TACO in noch anspruchsvollere Agentenarchitekturen. Die kontinuierliche Verbesserung solcher selbstlernenden Komprimierungsmechanismen ist entscheidend, um den steigenden Anforderungen an die Effizienz und Leistungsfähigkeit von KI-Agenten in dynamischen Umgebungen gerecht zu werden.

Bibliographie

- Ren, J., Wu, S., et al. (2026). A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression. arXiv preprint arXiv:2604.19572. - Alan Hou. TACO: Terminal Agent Compression via Self-Evolving Observation Rules. Blog Post. - Wang, Y. et al. (2026). SWE-Pruner: Self-adaptive context pruning for coding agents. arXiv preprint arXiv:2601.16746. - Jimenez, C. E. et al. (2024). SWE-bench: Can language models resolve real-world github issues? In The Twelfth International Conference on Learning Representations. - Ma, Z., et al. (2025). TACO: LEARNING MULTI-MODAL MODELS TO REASON AND ACT WITH SYNTHETIC DATA. Published as a conference paper at ICLR 2025. - Shandilya, S., et al. (2025). TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning. ACL 2025 Findings. - Zheng, R., et al. (n.d.). TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning. Under review as a conference paper at NeurIPS 2023. - Ren, J., Wu, S., Li, Y., Zhu, K., Xu, S., Feng, B., Yuan, R., Zhang, W., Batista-Navarro, R., Yang, J., & Lin, C. (2026). A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression. arXiv. Retrieved from https://arxiv.org/html/2604.19572v1 - Hou, A. (2026). TACO: Terminal Agent Compression via Self-Evolving Observation Rules / TACO：通过自进化观察规则压缩终端智能体. Alan Hou. Retrieved from https://alanhou.org/blog/arxiv-2604-19572-taco-terminal-compression/ - The Moonlight. (n.d.). [Literature Review] A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression. Retrieved from https://www.themoonlight.io/review/a-self-evolving-framework-for-efficient-terminal-agents-via-observational-context-compression - Han, H., Xie, J., Ma, X., Zhu, W., Zhang, Z., Long, Z., Chen, H., & Ye, Q. (2026). SWE-TRACE: OPTIMIZING LONG-HORIZON SWE AGENTS THROUGH RUBRIC PROCESS REWARD MODELS AND HEURISTIC TEST-TIME SCALING. arXiv. Retrieved from https://arxiv.org/pdf/2604.14820