Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung intelligenter Agenten, die komplexe Aufgaben in digitalen Umgebungen autonom lösen können, stellt eine zentrale Herausforderung in der aktuellen KI-Forschung dar. Ein bemerkenswertes Projekt in diesem Bereich, "Endless Terminals", hat kürzlich signifikante Aufmerksamkeit erregt. Unter der Leitung von Kanishk Gandhi wurde eine innovative Pipeline entwickelt, die das Training von KI-Agenten in Terminal-Umgebungen revolutionieren könnte. Die hohe Download-Zahl von über 73.000 auf Hugging Face innerhalb eines Monats unterstreicht die Relevanz und das Potenzial dieser Arbeit.
Reinforcement Learning (RL) hat sich als mächtiges Paradigma für die Verbesserung der Fähigkeiten von Sprachmodellen etabliert, etwa bei der Lösung mathematischer Probleme oder der Codegenerierung. Der Erfolg dieser Ansätze hängt jedoch maßgeblich von der Verfügbarkeit großer, diverser und automatisch überprüfbarer Trainingsumgebungen ab. Insbesondere für KI-Agenten, die komplexe, mehrstufige Computeraufgaben in einer Terminal-Umgebung ausführen sollen, fehlte es bislang an einer solchen skalierbaren Lösung. Bestehende Benchmarks sind oft für die Evaluierung konzipiert, nicht für das umfangreiche Training, und die manuelle Kuration von Umgebungen ist zeitaufwendig und teuer. Dies führt zu einem Engpass, der die Entwicklung robuster und leistungsfähiger Terminal-Agenten behindert.
Das Projekt "Endless Terminals" begegnet dieser Herausforderung mit einem vollständig autonomen Ansatz. Es handelt sich um eine prozedurale Generierungspipeline, die Terminal-Aufgaben ohne menschliche Annotation oder Destillation aus stärkeren Modellen synthetisiert. Die Pipeline durchläuft vier Hauptphasen:
Dieser methodische Ansatz ermöglicht die Schaffung von 3.255 validierten Aufgaben, die eine breite Palette von Terminal-Operationen abdecken.
Die mit "Endless Terminals" generierten Aufgaben dienen als Grundlage für das Training von KI-Agenten mittels Reinforcement Learning, genauer gesagt mit dem Proximal Policy Optimization (PPO)-Algorithmus. Die Forschungsergebnisse zeigen konsistente Verbesserungen über verschiedene Modellgrößen und anfängliche Fähigkeiten hinweg. Beispielsweise konnte Llama-3.2-3B seine Leistung auf einem internen Entwicklungssatz von 4,0 % auf 18,2 % steigern, Qwen2.5-7B von 10,7 % auf 53,3 % und Qwen3-8B-openthinker-sft von 42,6 % auf 59,0 %.
Besonders hervorzuheben ist, dass diese Verbesserungen auch auf externen, von Menschen kuratierten Benchmarks wie TerminalBench 2.0 nachweisbar sind. Modelle, die mit "Endless Terminals" trainiert wurden, übertreffen dort alternative Ansätze, selbst solche mit komplexeren agentischen Gerüsten. Dies demonstriert, dass ein skalierbarer Ansatz zur Umgebungsgenerierung auch mit einfachen RL-Setups zu erheblichen Erfolgen führen kann.
Eine detaillierte Fehleranalyse auf TerminalBench 2.0 identifizierte zwei primäre Fehlerarten: Schleifenverhalten (39 % der Fehler), bei dem Modelle dieselbe Befehlssequenz wiederholen, und das Erreichen des Zugriffs-Limits (26 % der Fehler). Erfolgreiche Aufgabenbearbeitungen zeigten eine deutlich höhere Befehlsvielfalt nach einem ersten Fehler, was auf die Bedeutung der explorativen Fehlersuche hinweist. Zudem variierte die Leistung stark nach Aufgabenkategorie, wobei Software-Engineering-Aufgaben die besten Ergebnisse erzielten, während Bereiche wie Mathematik oder maschinelles Lernen noch Herausforderungen darstellen.
Die Autoren weisen darauf hin, dass die prozedural generierten Aufgaben derzeit eher kompetitiven Programmierproblemen ähneln als den oft ungenauen und mehrdeutigen Anfragen realer Benutzer. Zukünftige Arbeiten könnten die Integration von menschlichem Feedback oder die Entwicklung von Modellen für "unscharfe" Umgebungen umfassen, um die Aufgabenrealität besser abzubilden. Auch die Nutzung von Self-Play-Ansätzen könnte die Schwierigkeit adaptiv skalieren und über die Fähigkeiten aktueller Validierungsmodelle hinausgehen.
Das Projekt "Endless Terminals" stellt somit einen wichtigen Schritt dar, um die Entwicklung und das Training von KI-Agenten für komplexe Terminal-Aufgaben zu beschleunigen. Es belegt, dass die Skalierung von Trainingsumgebungen ein entscheidender Faktor für den Fortschritt im Reinforcement Learning ist und eröffnet neue Perspektiven für die Schaffung leistungsfähigerer und vielseitigerer KI-Systeme.
Diese Erkenntnisse sind für Unternehmen im B2B-Bereich von großer Bedeutung, insbesondere für jene, die sich mit der Entwicklung und Implementierung von KI-gesteuerten Automatisierungslösungen befassen. Die Fähigkeit, Agenten effizient und skalierbar auf komplexe IT-Aufgaben zu trainieren, kann einen entscheidenden Wettbewerbsvorteil darstellen.
Bibliographie
- Gandhi, K., Garg, S., Goodman, N. D., & Papailiopoulos, D. (2025). Endless Terminals: Scaling RL Environments for Terminal Agents. arXiv preprint arXiv:2601.16443. - Hugging Face Datasets: obiwan96/endless-terminals. (n.d.). Abgerufen am 20. Januar 2026 von https://huggingface.co/datasets/obiwan96/endless-terminals - Gandhi, K. (obiwan96). (n.d.). Hugging Face Profil. Abgerufen am 20. Januar 2026 von https://huggingface.co/obiwan96 - Hugging Face Collection: Endless Terminals - a obiwan96 Collection. (n.d.). Abgerufen am 20. Januar 2026 von https://huggingface.co/collections/obiwan96/endless-terminals - GitHub Repository: kanishkg/endless-terminals. (n.d.). Abgerufen am 20. Januar 2026 von https://github.com/kanishkg/endless-terminalsLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen