Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Interaktion zwischen Mensch und Maschine entwickelt sich stetig weiter. Während grafische Benutzeroberflächen (GUI) und die zugrundeliegenden Agenten in der Vergangenheit primär auf explizite Anweisungen reagierten, rückt die Fähigkeit, implizite Benutzerabsichten zu erkennen und proaktiv zu handeln, zunehmend in den Mittelpunkt. Eine aktuelle Forschungsarbeit stellt hierfür mit "PersonalAlign" einen neuen Ansatz vor, der darauf abzielt, diese komplexen Anforderungen zu adressieren.
Traditionelle GUI-Agenten sind darauf ausgelegt, klar formulierte Befehle effizient auszuführen. In realen Nutzungsszenarien äußern Benutzer jedoch oft vage Anweisungen oder lassen Präferenzen aus, da sie davon ausgehen, dass der Agent aus dem Kontext oder früheren Interaktionen lernen kann. Dies führt zu einer Lücke zwischen der expliziten Anweisung und der tatsächlichen, oft impliziten, Absicht des Benutzers. Hier setzt "PersonalAlign" an, indem es Agenten befähigen soll, langfristige Benutzeraufzeichnungen als Kontext zu nutzen, um diese fehlenden Präferenzen zu erschließen und latente Routinen zur proaktiven Unterstützung zu antizipieren.
Die Forschung unterscheidet dabei verschiedene Ebenen impliziter Absichten:
Die Überbrückung dieser Lücken ist entscheidend, um eine effektivere Mensch-Agent-Interaktion zu ermöglichen und das Vertrauen der Benutzer zu stärken.
Um die Fähigkeiten von Agenten in Bezug auf "PersonalAlign" zu bewerten, wurde ein neuer Benchmark namens "AndroidIntent" entwickelt. Dieser Benchmark basiert auf zwei Monaten Android-Interaktionsdaten von 91 Benutzern, die insgesamt 20.000 langfristige Aufzeichnungen umfassen. Ein zentraler Aspekt von AndroidIntent ist die Annotation von 775 benutzerspezifischen Präferenzen und 215 Routinen. Die Erstellung dieses Datensatzes erfolgte mittels einer hierarchischen Filter- und Verifizierungsstrategie, um die Objektivität und Qualität der Annotationen zu gewährleisten.
Die Annotation von Benutzerpräferenzen und -routinen aus umfangreichen Verlaufsdaten stellt eine Herausforderung dar, da die Definitionen oft mehrdeutig sind. Um dies zu adressieren, wurde eine zweistufige Strategie implementiert:
Diese Strategie konzentriert sich auf die Identifizierung stabiler, modellierbarer persönlicher Muster. Dabei werden zwei Hauptkriterien herangezogen:
Aus diesen Metriken wird ein quantifizierter Score (Qscore) berechnet, der eine schnelle Filterung großer Datenmengen ermöglicht und Kandidaten für Präferenz- und Routine-Absichten identifiziert. Die Verteilung dieser Scores über eine große Benutzerbasis zeigt drei annähernd Gaußsche Modi, die Moment-, Präferenz- und Routine-Absichten entsprechen.
Nach der Filterung werden die Kandidaten durch menschliche Annotatoren überprüft und gegebenenfalls neu annotiert. Um vage Präferenzanweisungen zu generieren, wird GPT genutzt, um diverse alternative Anweisungen zu erstellen, die potenzielle Benutzerpräferenzen bewusst weglassen. Unabhängige Annotatoren kreuzvalidieren alle Kandidaten mehrfach, um die Datenqualität zu sichern.
Um "PersonalAlign" zu unterstützen, wurde der "Hierarchical Intent Memory Agent" (HIM-Agent) entwickelt. Dieses Framework ist darauf ausgelegt, langfristige Benutzeraufzeichnungen als Kontext für eine personalisierte Interaktion zu nutzen, ohne die ursprüngliche Ausführung zu beeinträchtigen. Der HIM-Agent verfügt über ein sich ständig aktualisierendes Gedächtnis und organisiert Benutzerpräferenzen und -routinen hierarchisch.
Die Forscher bewerteten eine Reihe von GUI-Agenten, darunter GPT-5, Qwen3-VL und UI-TARS, auf dem AndroidIntent-Benchmark. Die Ergebnisse zeigen, dass vage Anweisungen die Leistung der Agenten erheblich beeinträchtigen. Während die Genauigkeit der Operationstypen nur geringfügig sank, verringerten sich die Step-wise Success Rate (SSR) und die Cumulative Error Rate (CER) drastisch (etwa 20% bzw. 45%). Dies deutet darauf hin, dass Agenten zwar die übergeordneten Ziele erkennen, jedoch bei feinkörnigen Ausführungen aufgrund fehlender personalisierter Präferenzinformationen scheitern.
Die Analyse der proaktiven Dienstleistung zeigte, dass die meisten Modelle Schwierigkeiten haben, ein Gleichgewicht zwischen falschen Alarmen und der Trefferquote zu finden. Viele Agenten tendieren dazu, übermäßig proaktiv zu sein, was zu einer hohen Rate an falschen Alarmen führt. Dies unterstreicht die Notwendigkeit verbesserter langfristiger Kontextanalysefähigkeiten für personalisierte Agenten.
Im Vergleich zu anderen Ansätzen, einschließlich Retrieval-basierter Methoden und LLM-basierter Benutzerprofilierung, zeigte der HIM-Agent eine überlegene Leistung. Er verbesserte die Fähigkeit, implizite Absichten zu erkennen, signifikant und erreichte eine CER von 42,3. Bei proaktiven Diensten erzielte der HIM-Agent ebenfalls hervorragende Ergebnisse, mit einer besseren Balance zwischen Trefferquote (81,4 %) und Fehlalarmrate (49 %), sowie den höchsten Intent Alignment Scores. Dies geschieht, während der HIM-Agent im Vergleich zu LLM-basierten Methoden, die zur Profilerstellung zusätzliche Token verbrauchen, effizient bleibt.
Ablationsstudien bestätigten die Bedeutung aller Komponenten des Execution-based Preference Filters. Das vollständige Modul führte zu einer Verbesserung der CER um 9,1 %. Auch die zustandsbezogenen Komponenten des State-based Routine Filters, insbesondere Zeit- und Szenarioinformationen, erwiesen sich als entscheidend für die proaktive Leistung, um Fehlalarme zu vermeiden.
Die Einführung von "PersonalAlign" und des "AndroidIntent"-Benchmarks markiert einen wichtigen Schritt in der Entwicklung personalisierter GUI-Agenten, die in der Lage sind, implizite Benutzerabsichten zu verstehen und darauf zu reagieren. Der HIM-Agent bietet ein effektives Framework, das durch die hierarchische Organisation und kontinuierliche Aktualisierung von Benutzeraufzeichnungen eine verbesserte Personalisierung ermöglicht. Die bisherigen Ergebnisse zeigen vielversprechende Fortschritte, aber auch die verbleibenden Herausforderungen, insbesondere im Hinblick auf die Verfügbarkeit großer, öffentlich zugänglicher Datensätze und die "Cold-Start"-Problematik bei neuen Benutzern.
Zukünftige Forschungsarbeiten könnten sich auf die Erweiterung der Datensammlung auf andere GUI-Umgebungen wie Betriebssysteme und Desktop-Anwendungen konzentrieren. Zudem ist die Entwicklung von datenschutzfreundlichen Lösungen, wie On-Device-Bereitstellung oder Federated Learning, von großer Bedeutung, um die Sicherheit von Benutzerdaten zu gewährleisten und gleichzeitig effektive Personalisierung zu ermöglichen. Die Vision ist ein Agent, der nicht nur auf explizite Befehle reagiert, sondern proaktiv assistiert und sich nahtlos in den Alltag des Benutzers integriert, um Vertrauen und Zufriedenheit zu steigern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen