Die Automatisierung von Arbeitsabläufen am Computer ist ein stetig wachsendes Feld. Künstliche Intelligenz (KI) spielt dabei eine immer wichtigere Rolle. Computer-Using Agents (CUAs), angetrieben durch multimodale Large Language Models (LLMs), bieten vielversprechende Möglichkeiten, komplexe Desktop-Workflows mithilfe von natürlicher Sprache zu automatisieren. Bisherige Ansätze blieben jedoch oft konzeptionelle Prototypen, limitiert durch oberflächliche Betriebssystemintegration, fragile screenshot-basierte Interaktion und störende Ausführung.
UFO2 präsentiert einen neuen Ansatz: ein Multiagenten-AgentOS für Windows-Desktops, das CUAs zu praktischer, systemnaher Automatisierung befähigt. Im Kern von UFO2 steht ein zentraler HostAgent, der für die Aufgabenzerlegung und -koordination zuständig ist. Diesem HostAgent steht eine Sammlung von anwendungsspezifischen AppAgents zur Seite. Diese AppAgents sind mit nativen APIs, domänenspezifischem Wissen und einer einheitlichen GUI-API-Aktionsschicht ausgestattet.
Diese Architektur ermöglicht eine robuste Aufgabenausführung und bewahrt gleichzeitig Modularität und Erweiterbarkeit. Ein hybrides Steuerungserkennungssystem kombiniert Windows UI Automation (UIA) mit visueller Analyse, um verschiedene Oberflächen-Stile zu unterstützen. Die Laufzeiteffizienz wird durch spekulative Multi-Aktions-Planung weiter verbessert, wodurch der LLM-Overhead pro Schritt reduziert wird.
Ein besonderes Merkmal von UFO2 ist die Picture-in-Picture (PiP)-Schnittstelle. Diese ermöglicht die Automatisierung innerhalb eines isolierten virtuellen Desktops, sodass Agenten und Benutzer gleichzeitig und ohne gegenseitige Beeinträchtigung arbeiten können. Dadurch wird die Benutzerfreundlichkeit deutlich erhöht und die Integration in bestehende Arbeitsabläufe vereinfacht.
Die Entwickler von UFO2 haben das System anhand von über 20 realen Windows-Anwendungen evaluiert. Die Ergebnisse zeigen deutliche Verbesserungen in Bezug auf Robustheit und Ausführungsgenauigkeit im Vergleich zu früheren CUAs. Die tiefe Betriebssystemintegration von UFO2 eröffnet einen skalierbaren Weg zu zuverlässiger, benutzerorientierter Desktop-Automatisierung.
Die Kombination aus zentraler Steuerung durch den HostAgent, spezialisierten AppAgents und der hybriden Steuerungserkennung ermöglicht eine flexible und effiziente Automatisierung. Durch die PiP-Funktion wird zudem die parallele Nutzung von Mensch und Maschine am Desktop unterstützt, ohne dass sich die jeweiligen Aktionen gegenseitig stören.
Für Unternehmen wie Mindverse, die sich auf KI-gestützte Lösungen spezialisiert haben, bietet UFO2 ein interessantes Potenzial. Die Technologie könnte die Grundlage für maßgeschneiderte Automatisierungslösungen bilden, beispielsweise für Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme. Die flexible Architektur von UFO2 ermöglicht die Anpassung an spezifische Anwendungsfälle und die Integration in bestehende Systeme.
Die Entwicklung von CUAs wie UFO2 steht noch am Anfang. Die bisherigen Ergebnisse sind jedoch vielversprechend und deuten auf ein großes Potenzial für die Zukunft der Desktop-Automatisierung hin. Die Kombination aus LLMs, tiefer Betriebssystemintegration und benutzerfreundlichen Schnittstellen könnte die Art und Weise, wie wir mit Computern interagieren, grundlegend verändern.
Bibliographie: Zhang, C. et al. (2025). UFO2: The Desktop AgentOS. arXiv preprint arXiv:2504.14603. https://ru.scribd.com/document/709392086/new https://www.foreo.com/mysa/your-step-by-step-guide-to-ufo-2?srsltid=AfmBOoryJbosuSdOl411d90OXBZ2L_3az0W6LiP6oQeB6JKd8MR7Y_zT https://arxiv.org/abs/2402.07939 https://www.foreo.com/mysa/all-you-wanted-to-know-about-ufo-3-collection?srsltid=AfmBOorggH_14p9iy8CgP3F2fSE-kWQNYO1KTTDF_uGc5VEH05fv_oZa https://htcondor.org/doc/parrot-jpdcp-preprint.pdf https://nemo.inf.ufes.br/wp-content/papercite-data/pdf/ontological_foundations_for_agent_oriented_organizational_modeling_2008.pdf https://www.klarna.com/ie/shopping/pl/cl253/5256472/Skincare/Foreo-UFO-2-Pearl-Pink/ https://research.nvidia.com/labs/lpr/publication/ https://ntrs.nasa.gov/api/citations/19950025558/downloads/19950025558.pdf https://babyblaue-seiten.de/index.php?content=review&left=grade&albumId=10736&grade=11Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen