Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Eine neue Überblicksarbeit, verfasst von Forschenden der University of Illinois Urbana-Champaign, Meta und der Stanford University, schlägt eine veränderte Perspektive auf die Funktionsweise von KI-Agenten vor. Die zentrale These dieser Arbeit ist, dass Code nicht lediglich ein generiertes Produkt von KI-Agenten ist, sondern die fundamentale Ebene darstellt, auf der diese Agenten ihre Denkprozesse, Handlungen und die Koordination untereinander aufbauen.
Demzufolge wird der sogenannte "Harness" – eine umfassende Softwareschicht – als entscheidender Faktor für autonome Systeme identifiziert. Dieser Harness umfasst eine Vielzahl von Elementen, darunter Werkzeuge, Schnittstellen, isolierte Ausführungsumgebungen, Speicherverwaltung, Testmechanismen, Berechtigungsgrenzen, Ausführungsschleifen und Feedback-Kanäle. Ohne diese Schicht bliebe ein reines Sprachmodell statisch; erst durch den Harness wird es zu einem funktionsfähigen Agenten, der komplexe Aufgaben über längere Zeiträume hinweg bearbeiten kann.
Die Autoren der Studie legen dar, warum Code als integraler Bestandteil des Agentenverhaltens zu betrachten ist. Code ist ausführbar, was bedeutet, dass die Ausgaben des Modells in überprüfbare Operationen umgesetzt werden können. Es ist nachvollziehbar, da Zwischenberechnungen als strukturierte Spuren vorliegen, die vom System gelesen und gespeichert werden können. Darüber hinaus ist Code persistent, da das laufende Programm den Fortschritt einer Aufgabe in einer Form protokolliert, die der Agent später wieder aufgreifen kann.
Langlaufende Agentensysteme werden in der Arbeit in drei Kernbereiche unterteilt: Erstens die inhärenten Fähigkeiten des Modells, wie Argumentation und Planung. Zweitens die vom System bereitgestellte Infrastruktur. Und drittens der Code, den der Agent "on the fly" selbst schreibt – von Testskripten über temporäre Hilfsprogramme bis hin zu wiederverwendbaren Fähigkeiten und ausführbaren Workflows. Die Forschenden weisen darauf hin, dass diesen selbstgenerierten Artefakten in der bisherigen Forschung oft nicht ausreichend Beachtung geschenkt wurde.
Auf der ersten Ebene dient Code als Brücke zwischen dem Modell und seiner Umgebung. Ansätze wie "Program-of-Thoughts" oder "Chain of Code" verlagern tatsächliche Berechnungen auf ausführbare Programme, anstatt sie lediglich in natürlicher Sprache zu beschreiben. Andere Systeme, beispielsweise "Code as Policies", übersetzen natürliche Sprachbefehle direkt in Robotersteuerungs-Code.
Die zweite Ebene befasst sich mit der Sicherstellung der Zuverlässigkeit eines Agenten über mehrere Schritte hinweg. Dies umfasst Planung, Speicherverwaltung, Werkzeugnutzung und einen wiederkehrenden Zyklus von Planung, Ausführung und Verifikation. Dieser Zyklus ersetzt ad-hoc-Fehlerbehebung durch systematische Überprüfungen. Pläne definieren, welche Änderungen der Agent beabsichtigt. Die Ausführung erfolgt in isolierten Umgebungen mit klar definierten Berechtigungen. Ein Verifikationsschritt entscheidet dann, ob das Ergebnis akzeptiert, überarbeitet oder zur menschlichen Überprüfung weitergeleitet wird.
Die dritte Ebene fokussiert auf die Zusammenarbeit mehrerer Agenten. Code-Sammlungen, Tests und Ausführungsprotokolle werden zu einem gemeinsamen Arbeitsbereich, in dem spezialisierte Rollen wie Manager, Planer, Programmierer, Prüfer, Tester und Ausführende die Arbeit aufteilen. Systeme wie ChatDev und MetaGPT demonstrieren diese Prinzipien. Die Forschenden stellen fest, dass diese Konzepte bereits in realen Produkten zum Einsatz kommen. Ein Beispiel ist Claude Code, wo Pull-Request-Reviews an ein Team von KI-Agenten delegiert werden können, die parallel nach Fehlern, Sicherheitslücken und Regressionen suchen, ohne selbst Änderungen genehmigen zu können.
Die Autoren verweisen auf kommerzielle Produkte, die diese Muster bereits aufweisen. Anthropic's Claude Code integriert das lokale Terminal, die Entwicklungsumgebung und den Browser in einen Workflow, in dem der Agent Dateien bearbeitet, Befehle ausführt und Berechtigungsregeln befolgen muss. OpenAI's Codex und GitHub Copilot nutzen ähnliche Workflows in verwalteten Cloud-Umgebungen, wobei Änderungen über nachvollziehbare Pull-Request-Outputs gebündelt werden.
Die Bedeutung dieser Schicht wurde zufällig deutlich, als Anthropic etwa 500.000 Zeilen des Quellcodes von Claude Code durchsickern ließ. Darin enthalten war eine "Dreaming"-Funktion zur Aufgabenkonsolidierung und weitere Mechanismen zur Steuerung von Modellen als Code-Agenten. Anthropic ließ später über 8.000 Kopien und Forks aufgrund einer Urheberrechtsverletzung von GitHub entfernen.
Andere KI-Labore adaptieren diesen Ansatz ebenfalls. Deepseek plant, mit seinem Produkt Deepseek Code direkt mit Claude Code und Codex zu konkurrieren und baut hierfür ein dediziertes "Harness"-Team in Peking auf, das sich um alle Aspekte jenseits des Modells kümmert, von der Werkzeugnutzung über die Planung bis zur Speicherung. Die Kernformel des Teams lautet: Modell plus Harness ergibt KI-Agent.
Diese Produktionssysteme dienen zudem als Trainingsdaten für die nächste Generation von Modellen. Der Composer von Cursor wird beispielsweise durch kontinuierliches Reinforcement Learning auf Basis realer Nutzungsspuren trainiert. OpenAI's Codex-1, GPT-5-Codex und GPT-5.1-Codex-Max werden speziell auf lange, mehrstufige Coding-Sitzungen trainiert, die den Codex-Workflow widerspiegeln. Die Grenze zwischen Agent und Umgebung entwickelt sich somit selbst zu einer lernfähigen Schicht.
Mehrere Forschungssysteme behandeln den Harness selbst als Optimierungsziel. AutoHarness beispielsweise generiert automatisch Code, der unautorisierte Aktionen filtert, während Meta-Harness systematisch nach besseren Harness-Varianten sucht, indem es frühere Versionen, deren Evaluationen und Ausführungsprotokolle als Suchraum nutzt. Andere Ansätze analysieren Telemetriedaten, um einzelne Komponenten zu überarbeiten. Metas Hyperagents gehen noch einen Schritt weiter, indem sie Aufgabenlösung und Selbstmodifikation in einem editierbaren Programm kombinieren, das die Verbesserungsschleife selbst optimiert.
Die Autoren weisen jedoch auf mehrere ungelöste Probleme hin, die das Feld derzeit bremsen: aussagekräftigere Evaluationen jenseits reiner Erfolgsraten, die Überprüfung der Substanz von Ergebnissen, wenn Tests allein nicht ausreichen, die Selbstverbesserung des Harness ohne Regressionen, der gemeinsame Zustand über mehrere Agenten hinweg, die menschliche Aufsicht und die Erweiterung auf Umgebungen mit Bild- oder Sensordaten, wie etwa GUI-Agenten und Robotik.
Besonders kritisch äußern sie sich zur Angemessenheit aktueller Testkriterien. Tests können unvollständig sein, und Testprogramme für grafische Benutzeroberflächen können fehlerhafte Zwischenschritte übersehen. Simulatoren können physische Risiken kaschieren. Ein Harness könnte ein falsches Sicherheitsgefühl erzeugen, gerade weil er sichtbares Feedback liefert, und das grüne Häkchen bedeutet nicht zwangsläufig, dass der Code sicher ist. Die Forschenden schlagen vor, dass jede akzeptierte Aktion mit Dokumentationen versehen sein sollte, die aufzeigen, welche Tests tatsächlich durchgeführt wurden, welche Bereiche ungetestet blieben und welche Risiken weiterhin bestehen.
Die Zuverlässigkeit autonomer Code-Agenten resultiert demnach nicht aus besseren Reparatur-Prompts, sondern aus streng regulierten Zustandsübergängen innerhalb einer kontrollierten Schleife um das Modell, so die Argumentation der Forschenden.
Bibliography: - Ning, Xuying et al. "Code as Agent Harness ◆ Toward Executable, Verifiable, and Stateful Agent Systems ◆." arXiv preprint arXiv:2605.18747, 2026. - Petersen, Brian. "Review paper claims code defines AI agents' reasoning..." aidailypost.com, 29 May 2026. - Greyling, Cobus. "The Emerging Middle Layer of Agentic AI." Medium, 26 May 2026. - Hückmann, Dominic. "Agents Don’t Need Longer Prompts. They Need Harnesses." huecki.com, 20 May 2026. - Kumar, Ankur. "Code as Agent Harness." agentic-ai.readthedocs.io. - Hou, Alan. "Code as Agent Harness: When Programs Become the Infrastructure for AI Agents." alanhou.org. - ABV — Applied AI Reviews. "Code as Agent Harness: The Boring Layer That May Decide Whether Agents Actually Work." Medium, 22 May 2026. - SMITH, AA Ala & AI Research Desk. "Meta-Stanford Survey: Code as Agent Harness…" gentic.news, 25 May 2026. - Kemper, Jonathan. "New review paper argues code is how AI agents think and act, not just what they produce." the-decoder.com, 29 May 2026.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen