Neuerungen in der Holo3.1 Modellfamilie für Computer-Nutzungs-Agenten

Kategorien:

No items found.

Freigegeben:

June 3, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Holo3.1 ist die neueste Generation von Vision-Language Models (VLMs), optimiert für die Steuerung von Computeranwendungen auf verschiedenen Plattformen.
Die Holo3.1-Familie verbessert die Robustheit in Bezug auf Umgebungen (Web, Desktop, Mobil), Agenten-Frameworks und Bereitstellungsziele.
Erstmals werden quantisierte Checkpoints für die lokale Inferenz bereitgestellt, einschließlich FP8, Q4 GGUF und NVFP4, um eine schnelle und lokale Ausführung zu ermöglichen.
Holo3.1 zeigt signifikante Leistungssteigerungen in mobilen Umgebungen und bietet native Unterstützung für Funktionsaufrufprotokolle für eine bessere Integration in Agenten-Stacks von Drittanbietern.
Neue Modellgrößen (0.8B, 4B, 9B) wurden eingeführt, um kosteneffiziente und private Bereitstellungsoptionen zu ermöglichen, zusätzlich zum leistungsstärkeren 35B-A3B Modell.
Die Quantisierungstechniken ermöglichen erhebliche Geschwindigkeitsvorteile bei der lokalen Inferenz mit minimaler Leistungseinbuße.

Die Landschaft der Künstlichen Intelligenz (KI) unterliegt einem stetigen Wandel, insbesondere im Bereich der Computer-Nutzungs-Agenten. Diese spezialisierten KI-Systeme sind darauf ausgelegt, mit digitalen Schnittstellen zu interagieren und Aufgaben auf Computern, Mobilgeräten und im Web zu automatisieren. Eine aktuelle Entwicklung, die in diesem Kontext Beachtung findet, ist die Einführung der Holo3.1-Modellfamilie. Diese Weiterentwicklung zielt darauf ab, die Leistung und Flexibilität von Computer-Nutzungs-Agenten zu verbessern, indem sie einen Schwerpunkt auf lokale Ausführung und breitere Kompatibilität legt.

Die Evolution der Computer-Nutzungs-Agenten

Im März des Jahres wurde Holo3, ein Vorgängermodell, vorgestellt, das sich als hochmodernes Modell für die Computer-Nutzung erwies. Die Akzeptanz war breit gefächert, und Entwickler sowie Unternehmen setzten Holo3 in diversen Arbeitsabläufen ein, von der Browser-Automatisierung bis hin zu Desktop-Anwendungen. Die Erfahrungen aus dieser Phase zeigten jedoch, dass reine Leistung allein nicht ausreicht. Es entstand ein Bedarf an flexibleren Einsatzmöglichkeiten, insbesondere im Hinblick auf die Ausführungsumgebung und die Integration in bestehende Agenten-Frameworks.

Die Anforderungen der Anwender entwickelten sich weiter. Es wurde der Wunsch nach einer konsistenten Computer-Nutzungsfähigkeit über Desktop- und mobile Umgebungen hinweg geäußert, gepaart mit einer nahtlosen Integration in verschiedene Agenten-Frameworks. Darüber hinaus wurde die Notwendigkeit einer flexiblen Bereitstellung betont, die sowohl Cloud-Inferenz als auch vollständig lokale Ausführung auf Endnutzergeräten umfasst. Diese Anforderungen bildeten die Grundlage für die Entwicklung von Holo3.1.

Holo3.1: Fokus auf Robustheit und lokale Ausführung

Die Holo3.1-Familie wurde entwickelt, um die Robustheit in drei entscheidenden Dimensionen zu verbessern, die für den Produktionseinsatz relevant sind:

Umgebungen: Dazu gehören Web-, Desktop- und mobile Plattformen.
Agenten-Frameworks: Die Modelle sollen sich nahtlos in unterschiedliche Agenten-Architekturen integrieren lassen.
Bereitstellungsziele: Die Flexibilität, sowohl in der Cloud als auch lokal auf den Geräten der Nutzer zu operieren.

Ein zentrales Merkmal von Holo3.1 ist die erstmalige Bereitstellung von quantisierten Checkpoints, die speziell für die lokale Inferenz optimiert wurden. Diese umfassen Formate wie FP8, Q4 GGUF und NVFP4. Durch diese Quantisierung wird eine effizientere Nutzung von Rechenressourcen ermöglicht, was die Ausführung auf Endgeräten signifikant beschleunigt.

Verbesserungen über GUI-Umgebungen und Agenten-Harnesses hinweg

Holo3.1 baut auf der Architektur der Qwen-Familie auf und wurde darauf ausgelegt, die Robustheit in den Umgebungen zu erhöhen, in denen Computer-Nutzungs-Agenten tatsächlich eingesetzt werden. Gleichzeitig soll das hohe Leistungsniveau beibehalten werden. Beobachtungen aus der Praxis zeigten, dass eine starke Leistung in einer Umgebung nicht zwangsläufig auf eine andere übertragbar ist. Mobile Geräte, alternative Agenten-Harnesses und unterschiedliche Ausführungs-Frameworks können zu Abweichungen in der Leistungsfähigkeit führen.

Mobile Automatisierung

Holo3.1 erweitert die Fähigkeiten von Holo3 über die Browser- und Desktop-Steuerung hinaus und bietet Leistungssteigerungen in mobilen Umgebungen. Auf der AndroidWorld-Benchmark konnte das 35B-A3B-Modell eine Verbesserung von 67 % auf 79,3 % erzielen. Kleinere Varianten wie 4B und 9B zeigten ebenfalls signifikante Fortschritte von 58 % auf 72 %.

Cross-Harness-Leistung

Um die Integration in Agenten-Stacks von Drittanbietern zu erleichtern, bietet Holo3.1 native Unterstützung für Funktionsaufrufprotokolle, zusätzlich zu den bereits in Holo3 verfügbaren strukturierten JSON-Ausgaben. Dies führt dazu, dass die Leistung bei Funktionsaufrufen und nativer Ausführung nahezu gleichwertig ist. Im Vergleich zu Holo3 wurde zudem eine Verbesserung von über 25 % bei der Bewertung innerhalb des Holotab-Produktharness festgestellt.

Kleinere Modellgrößen für Kosten-Leistungs-Abwägungen

Um die lokale und On-Device-Inferenz weiter zu fördern, wurden neue Modellgrößen eingeführt. Dazu gehören kleinere Modelle mit 0.8B, 4B und 9B Parametern, die eine kosteneffiziente und private Bereitstellung ermöglichen. Diese ergänzen das größere 35B-A3B-Modell, welches für Anwendungen mit höchster Leistungsanforderung vorgesehen ist.

Schnelle und lokale Inferenz

Die Holo3.1-Version ist die erste, die quantisierte Gewichte bereitstellt. Die 35B-A3B-Checkpoints sind in den Formaten FP8, Q4 GGUF und NVFP4 verfügbar. Für NVFP4 wurde NVIDIAs Model Optimizer in einer W4A16-Konfiguration verwendet. Diese Checkpoints ermöglichen eine schnelle lokale Inferenz für Computer-Nutzungs-Agenten mit nur geringer oder keiner Beeinträchtigung der Modellleistung. FP8 und NVFP4 erreichen beispielsweise die gleichen OSWorld-Scores, die nur etwa zwei Punkte unter dem Full-Precision BF16-Checkpoint liegen.

Die Geschwindigkeitsvorteile sind erheblich: Auf einem DGX Spark liefert NVFP4 W4A16 einen 1,41-fachen Gesamtdurchsatz an Tokens im Vergleich zu FP8 und einen 1,74-fachen gegenüber BF16.

Lokale Agenten auf Consumer-Hardware

Zusätzlich werden Q4 GGUF-Checkpoints veröffentlicht, die speziell für die lokale Bereitstellung von Computer-Nutzungs-Agenten auf Consumer-Hardware konzipiert sind. Der Agent selbst kann lokal auf Windows- oder Mac-Geräten ausgeführt werden, während das Modell entweder auf demselben Gerät (inklusive Referenzwerten für Apple Silicon) oder auf einem DGX Spark im selben Netzwerk laufen kann. In beiden Fällen bleibt die Ausführung vollständig privat und lokal, ohne dass Daten das Netzwerk des Benutzers verlassen.

Auf Spark ermöglichen Agenten-Harness-Optimierungen, die in Zusammenarbeit mit NVIDIA entwickelt wurden, in Kombination mit der NVFP4-Quantisierung eine kumulative End-to-End-Beschleunigung um das Zweifache gegenüber der FP8-Baseline. Dies reduziert die durchschnittliche Schrittzeit von 6,8 Sekunden auf 3,3 Sekunden.

Verfügbarkeit

Die Holo3.1-Familie ist in vier Größen erhältlich, die auf unterschiedliche Bereitstellungsszenarien zugeschnitten sind:

Holo3.1-0.8B: Für ultraleichte lokale Agenten.
Holo3.1-4B: Für kosteneffiziente Bereitstellungen.
Holo3.1-9B: Bietet eine ausgewogene Leistung und Latenz.
Holo3.1-35B-A3B: Für Anwendungen, die höchste Leistung erfordern.

Zusätzlich werden optimierte FP8-, NVFP4- und Q4 GGUF-Checkpoints für die lokale und Edge-Bereitstellung bereitgestellt.

Fazit

Die Holo3.1-Modellfamilie stellt einen Fortschritt in der Entwicklung von Computer-Nutzungs-Agenten dar, insbesondere durch ihren Fokus auf Robustheit, Flexibilität und lokale Ausführung. Die Möglichkeit, KI-Agenten schnell und effizient auf einer Vielzahl von Geräten und in unterschiedlichen Umgebungen einzusetzen, könnte neue Anwendungsfelder für Unternehmen eröffnen und die Automatisierung digitaler Prozesse weiter vorantreiben. Die Bereitstellung quantisierter Modelle und kleinerer Größenadressiert die steigende Nachfrage nach kosteneffizienten und datenschutzfreundlichen Lösungen in der B2B-Branche.

Bibliografie

H Company. (2026, Juni 1). Holo3.1: Fast & Local Computer Use Agents. Verfügbar unter: https://hcompany.ai/holo3.1
Hugging Face. (2026, Juni 2). Holo3.1: Fast & Local Computer Use Agents. Verfügbar unter: https://huggingface.co/blog/Hcompany/holo31
H Company. (n.d.). Quickstart. Verfügbar unter: https://hub.hcompany.ai/quickstart
Hugging Face. (2026, Juni 1). Hcompany/Holo-3.1-4B. Verfügbar unter: https://huggingface.co/Hcompany/Holo-3.1-4B
DEV Community. (2026, Juni 3). Computer Use Agents Go Local: A Deep Technical Dive into On-Device GUI Automation, Quantized Inference & Holo3.1. Verfügbar unter: https://dev.to/monuminu/computer-use-agents-go-local-a-deep-technical-dive-into-on-device-gui-automation-quantized-2m3g
n1n.ai. (2026, Juni 2). Holo3.1: Fast and Local Computer Use Agents Guide. Verfügbar unter: https://explore.n1n.ai/blog/holo3-1-fast-local-computer-use-agents-2026-06-02
Manevich, A. (2026, Juni 2). Holo3.1: Fast & Local Computer Use Agents. LinkedIn. Verfügbar unter: https://www.linkedin.com/posts/avshalom-manevich_holo31-fast-local-computer-use-agents-activity-7467583867357515777-zxHT
H Company. (2026, März 31). Holo3. Verfügbar unter: https://hcompany.ai/holo3
HowAIWorks.ai Team. (2026, April 2). Holo3: H Company's SOTA Foundation Model for Desktop Agents. Verfügbar unter: https://howaiworks.ai/blog/h-company-holo3-desktop-agent
Hugging Face. (n.d.). Readme Hcompany/Holo3-35B-A3B. Verfügbar unter: https://huggingface.co/Hcompany/Holo3-35B-A3B/resolve/main/README.md?download=true