Vision-Language-Modelle (VLMs) haben sich als wertvolle Assistenten für visuelle Aufgaben etabliert. Sie sind darauf trainiert, allgemeine menschliche Ziele zu erfüllen, wie z.B. harmlos und frei von Halluzinationen zu sein. Doch die Realität zeigt, dass Menschen mit unterschiedlichen Hintergründen selbst in der gleichen Situation unterschiedlich denken und handeln. Daraus ergeben sich personalisierte Erwartungen an VLM-Assistenten, die bisherige Modelle nicht berücksichtigen.
Um VLMs an diese personalisierte, situationsbedingte Kognition anzupassen, wurde ein neuer Ansatz entwickelt: PCogAlign. Dieses Framework zielt darauf ab, KI-Assistenten auf die individuellen Bedürfnisse der Nutzer zuzuschneiden und so die Interaktion in visuellen Aufgaben zu optimieren.
Die Herausforderung besteht darin, die Vielfalt menschlicher Kognition in einem Modell abzubilden. Jeder Mensch interpretiert Situationen basierend auf seinen Erfahrungen, seinem Wissen und seiner Rolle in der Gesellschaft. Ein Arzt betrachtet ein Röntgenbild anders als ein Patient, ein Architekt interpretiert einen Bauplan anders als ein Bauarbeiter. Diese Unterschiede müssen bei der Entwicklung von KI-Assistenten berücksichtigt werden.
Um die personalisierte Ausrichtung von VLMs zu evaluieren, wurde der Benchmark PCogAlignBench entwickelt. Dieser umfasst 18.000 Instanzen und 20 simulierte Individuen mit unterschiedlichen Rollen-Sets (Role-Sets). Diese Rollen-Sets repräsentieren verschiedene soziale Rollen und die damit verbundenen kognitiven Muster. Durch die Verwendung von Rollen-Sets wird die Komplexität der individuellen Kognition vereinfacht und modellierbar gemacht.
Das Kernstück des PCogAlign-Ansatzes ist ein kognitionsbasiertes und handlungsorientiertes Belohnungsmodell. Dieses Modell lernt, die Aktionen der simulierten Individuen zu bewerten und so die personalisierte Ausrichtung des VLM zu optimieren. Durch die Analyse der Handlungen und der damit verbundenen Kognition kann das Modell die Erwartungen des jeweiligen Individuums besser verstehen und seine Antworten entsprechend anpassen.
Erste Ergebnisse und menschliche Evaluationen zeigen die Zuverlässigkeit des PCogAlignBench und die Effektivität von PCogAlign. Das Framework ist in der Lage, die individuellen Erwartungen der simulierten Individuen zu erfassen und die Antworten des VLM entsprechend anzupassen. Die Forscher planen, den Benchmark und den Code von PCogAlign öffentlich zugänglich zu machen, um die weitere Forschung in diesem Bereich zu fördern.
Die Entwicklung von personalisierten KI-Assistenten ist ein wichtiger Schritt in Richtung einer effektiveren Mensch-Maschine-Interaktion. PCogAlign bietet einen vielversprechenden Ansatz, um die individuellen Bedürfnisse der Nutzer zu berücksichtigen und die Leistungsfähigkeit von VLMs in realen Anwendungen zu steigern. Durch die Kombination von kognitionsbasierten Modellen und handlungsorientierten Belohnungssystemen können KI-Assistenten zukünftig noch besser auf die individuellen Bedürfnisse ihrer Nutzer eingehen.
Bibliographie: https://arxiv.org/abs/2506.00930 https://www.arxiv.org/pdf/2506.00930 https://github.com/liyongqi2002/PCogAlign https://paperreading.club/page?id=312028 https://huggingface.co/papers https://www.chatpaper.ai/zh/dashboard/paper/0b0cc579-4263-4d03-ac2f-dfe8d3197111 https://2025.aclweb.org/program/main_papers/ https://huggingface.co/papers?q=human-aligned%20benchmarks https://yding25.com/AlignBot/ https://icml.cc/virtual/2025/papers.html