Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Automatisierung von grafischen Benutzeroberflächen (GUIs) birgt enormes Potenzial zur Steigerung der menschlichen Produktivität, indem sie bei digitalen Aufgaben unterstützt. Aktuelle Entwicklungen im Bereich der Vision-Language-Action (VLA) Modelle eröffnen neue Möglichkeiten für die Entwicklung von generalistischen GUI-Agenten. Ein vielversprechendes Beispiel hierfür ist ShowUI, ein Open-Source-Modell, das auf Phi-3.5-vision-instruct basiert und 4,2 Milliarden Parameter umfasst.
Bisherige Ansätze zur Entwicklung autonomer Agenten, die komplexe Aufgaben lösen können, basieren oft auf Large Language Models (LLMs) und Large Multimodal Models (LMMs). Diese sind jedoch häufig Closed-Source, auf API-basierte Lösungen angewiesen und zeigen Einschränkungen bei GUI-spezifischen Interaktionen. VLA-Modelle, die bereits erfolgreich in verkörperten Umgebungen eingesetzt werden, bieten einen alternativen Ansatz. ShowUI nutzt skalierbare visuelle GUI-Daten, wie Screenshots mit Aktionspfaden, um einen generalistischen GUI-Agenten zu trainieren, der Fähigkeiten in den Bereichen Grounding, Navigation und Verstehen demonstriert.
ShowUI unterstützt verschiedene Plattformen, darunter Websites, Desktops und Mobiltelefone, und akzeptiert diverse visuelle Eingaben wie Einzelbilder, Bildsequenzen und Videos. Diese Flexibilität ermöglicht eine breite Anwendung in unterschiedlichen Szenarien und Anwendungsfällen.
Die Leistung von ShowUI wurde anhand verschiedener Benchmarks, darunter Screenspot, Mind2Web, AITW, AITZ, GUI-Odyssey und GUI-World, evaluiert. Die Ergebnisse zeigen, dass ShowUI signifikante Fortschritte in der GUI-Automatisierung erzielt. Umfangreiche Experimente wurden durchgeführt, um den Einfluss verschiedener Trainingskorpora und Modelldesignentscheidungen auf die Downstream-Tasks zu analysieren.
Modell, Code und Daten von ShowUI werden als Open-Source zur Verfügung gestellt. Dieser Ansatz fördert die Zusammenarbeit und Weiterentwicklung innerhalb der Forschungsgemeinschaft und ermöglicht es Entwicklern, auf den bestehenden Ressourcen aufzubauen und eigene Anwendungen zu entwickeln. Die Offenlegung des Codes und der Daten trägt zur Transparenz und Reproduzierbarkeit der Ergebnisse bei.
ShowUI stellt einen wichtigen Schritt in Richtung einer effizienten und benutzerfreundlichen Automatisierung von GUI-Interaktionen dar. Die Fähigkeit, komplexe Aufgaben plattformübergreifend und mit verschiedenen Eingabemodalitäten zu bewältigen, eröffnet neue Möglichkeiten für die Automatisierung von Arbeitsabläufen und die Verbesserung der menschlichen Produktivität im digitalen Raum. Die Weiterentwicklung und Anwendung von VLA-Modellen wie ShowUI verspricht, die Interaktion mit digitalen Systemen grundlegend zu verändern.
Die Verwendung von grafischen Benutzeroberflächen (GUIs) für die Mensch-Computer-Interaktion ist unerlässlich für den Zugriff auf eine breite Palette digitaler Werkzeuge. Die jüngsten Fortschritte bei Vision Language Models (VLMs) unterstreichen das überzeugende Potenzial zur Entwicklung vielseitiger Agenten, die Menschen bei der Erledigung von GUI-Navigationsaufgaben unterstützen. Aktuelle VLMs stehen jedoch vor Herausforderungen in Bezug auf grundlegende Fähigkeiten (OCR und Grounding) und GUI-Wissen (die Funktionen und Steuerungsmethoden von GUI-Elementen), was sie daran hindert, praktische GUI-Agenten zu werden.
Um diese Herausforderungen zu bewältigen, wurden Datensätze entwickelt, um visuell basierte GUI-Agenten aus allgemeinen VLMs zu trainieren. Ein Beispiel hierfür ist GUICourse, eine Suite von Datensätzen, die die OCR- und Grounding-Fähigkeiten von VLMs stärken und deren Wissen über GUI-Komponenten und -Interaktionen erweitern. Experimente zeigen, dass GUI-Agenten, die mit diesen Datensätzen trainiert wurden, bei gängigen GUI-Aufgaben eine bessere Leistung erzielen als ihre Basis-VLMs. Sogar der kleine GUI-Agent (mit 3,1B Parametern) kann ein- und mehrstufige GUI-Aufgaben gut bewältigen.
Bibliographie: - https://openreview.net/forum?id=UXdxYnkJtX&referrer=%5Bthe%20profile%20of%20Mike%20Zheng%20Shou%5D(%2Fprofile%3Fid%3D~Mike_Zheng_Shou1) - https://openreview.net/pdf/fe1b691e1403d01126753d246f0d16ccdbf1c159.pdf - https://huggingface.co/papers - https://huggingface.co/papers?date=2024-11-27 - https://twitter.com/saran945/status/1853346591756722670 - https://github.com/showlab/Awesome-GUI-Agent - https://arxiv.org/html/2406.11317v1 - https://openaccess.thecvf.com/content/CVPR2024/papers/Hong_CogAgent_A_Visual_Language_Model_for_GUI_Agents_CVPR_2024_paper.pdf - https://arxiv.org/abs/2406.11317Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen