Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Das Lesen ist eine alltägliche Fähigkeit, die für die erfolgreiche Teilhabe an der modernen Gesellschaft unerlässlich ist. Dabei bewegen sich unsere Augen in sakkadischen Sprüngen über den Text. Es gibt Zeiträume, in denen der Blick auf einer bestimmten Stelle ruht – die sogenannten Fixationen – und schnelle Übergänge zwischen diesen Fixationen, die als Sakkaden bezeichnet werden. Diese Abfolge von Fixationen und Sakkaden enthält Informationen darüber, wie Leser mit Texten interagieren. Die automatische Dekodierung dieser Informationen ist ein wachsendes Forschungsgebiet.
Im Alltag verfolgen Leser beim Lesen verschiedene Ziele. Sie können den Text gründlich lesen oder ihn überfliegen, um die Kernaussage zu erfassen. Sie können ihn Korrektur lesen oder nach bestimmten Informationen suchen. Jedes dieser Ziele beeinflusst die Verarbeitung der Sprache und das Augenbewegungsverhalten beim Lesen. Obwohl es viele verschiedene Leseziele gibt, konzentrierte sich die Forschung zu Augenbewegungen in der Kognitionswissenschaft sowie in der Computerlinguistik (NLP) und im maschinellen Lernen (ML) bisher hauptsächlich auf das „gewöhnliche Lesen“. Dabei geht es dem Leser in der Regel um das allgemeine Verständnis des Textes. Fast alle großen Datensätze, die in der Forschung zu Augenbewegungen beim Lesen verwendet werden, wie Dundee, MECO und CELER, wurden in diesem Lesemodus erhoben. Andere Leseregime wurden bisher weniger untersucht.
Diese Arbeit geht über das gewöhnliche Lesen hinaus und untersucht, ob sich allgemeine Leseziele anhand der Augenbewegungsmuster des Lesers dekodieren lassen. Der Fokus liegt auf der Unterscheidung zwischen gewöhnlichem Lesen und Informationssuche – einem im Alltag häufigen Lesemodus, bei dem der Leser bestimmte Informationen aus dem Text extrahieren möchte. Frühere Arbeiten legen nahe, dass es im Durchschnitt über verschiedene Teilnehmer und Texte hinweg erhebliche Unterschiede in den Augenbewegungsmustern zwischen diesen beiden Leseregimen gibt. Es ist jedoch derzeit nicht bekannt, ob die Augenbewegungen ausreichend Informationen enthalten, um das Leseziel anhand der Augenbewegungen einer einzelnen Person über einen einzelnen Textabschnitt automatisch zu dekodieren. Auch ist wenig darüber bekannt, welche Faktoren die Schwierigkeit dieser Aufgabe beeinflussen.
Diese Arbeit befasst sich mit der Aufgabe, anhand der Augenbewegungen eines Lesers über einen Text vorherzusagen, ob er gewöhnlich liest oder nach bestimmten Informationen sucht. Das Informationssuche-Regime wird operationalisiert, indem dem Teilnehmer vor dem Lesen eine Frage präsentiert wird, die ihn dazu anregt, nach bestimmten Informationen im Text zu suchen. Dabei wird angenommen, dass der Klassifikator weder die Frage noch Informationen über den Teilnehmer erhält.
Augenbewegungen beim Lesen stellen einen komplexen Fall von zeitlich und räumlich ausgerichteten multimodalen Daten dar, bei denen Fixationen zeitlich sind und bestimmten Wörtern im Text entsprechen. Es wird eine breite Palette von State-of-the-Art-Architekturen zur Verarbeitung dieser Daten verwendet. Die Modelle lassen sich grob nach drei Hauptaspekten unterscheiden: den verwendeten Modalitäten (nur Augenbewegungen oder Augenbewegungen und Text), der Granularität der Darstellung der Augenbewegungsinformationen (globale Durchschnittswerte über den Text, einzelnes Wort oder einzelne Fixation) und bei den multimodalen Ansätzen der Art der Textdarstellungen und der Strategie zur Kombination mit den Augenbewegungen.
Es werden verschiedene Modelle verwendet, darunter solche, die nur Augenbewegungsinformationen verwenden, ohne den Text zu berücksichtigen. Solche Modelle sind wertvoll in Szenarien, in denen der zugrunde liegende Text für die Augenbewegungsaufzeichnung nicht verfügbar ist. Es ist auch der Standardansatz, wenn die Kalibrierung des Eye-Trackers von geringer Qualität ist, was zu ungenauen Informationen über die Position der Fixationen in Bezug auf den Text führt. Dies ist häufig der Fall, insbesondere bei webbasiertem Eye-Tracking und Eye-Tracking-Geräten niedrigerer Qualität. Abgesehen von praktischen Erwägungen ermöglicht der Ansatz, der nur Augenbewegungen verwendet, die Bewertung des Mehrwerts von Textinformationen für die Aufgabenstellung.
Weiterhin werden Modelle verwendet, die sowohl Augenbewegungen als auch Textinformationen verarbeiten. Diese Modelle bieten verschiedene Strategien zur Kombination der beiden Modalitäten. Einige verwenden globale Augenbewegungsmaße in Kombination mit Textdarstellungen, während andere die Augenbewegungsinformationen auf Wort- oder Fixationsebene integrieren. Die Integration von Textinformationen kann die Vorhersagegenauigkeit verbessern, insbesondere wenn die Augenbewegungsdaten allein nicht ausreichen, um das Leseziel eindeutig zu bestimmen.
Die Ergebnisse zeigen, dass es möglich ist, Leseziele mit relativ hoher Genauigkeit aus Augenbewegungen zu dekodieren. Die Genauigkeit variiert je nach Modell und Generalisierungsebene (neue Texte, neue Teilnehmer, Kombination aus beidem). Die Modelle, die sowohl Augenbewegungen als auch Textinformationen verwenden, schneiden in der Regel besser ab als die Modelle, die nur Augenbewegungen verwenden. Eine Fehleranalyse zeigt, dass bestimmte Eigenschaften von Texten und Augenbewegungen die Schwierigkeit der Aufgabe beeinflussen. So sind Texte mit vielen relevanten Informationen für die Informationssuche schwieriger zu klassifizieren als Texte mit wenigen relevanten Informationen. Auch die individuelle Lesegeschwindigkeit und die Anzahl der Regressionen (Rücksprünge im Text) beeinflussen die Vorhersagegenauigkeit.
Diese Arbeit liefert wichtige Erkenntnisse darüber, wie Leseziele aus Augenbewegungen dekodiert werden können. Die Ergebnisse haben Implikationen für das Verständnis des Leseprozesses und können zur Entwicklung von Anwendungen beitragen, die das Leseerlebnis verbessern, z. B. durch die Anpassung von Texten an die individuellen Leseziele des Nutzers. Zukünftige Forschung könnte sich auf die Untersuchung weiterer Leseziele und die Entwicklung robusterer Modelle konzentrieren, die auch in realen Umgebungen mit verrauschten Daten eine hohe Genauigkeit erreichen.
Bibliographie: - https://arxiv.org/abs/2410.20779 - https://openreview.net/pdf/f3ca51801945928098e3a31db2aa746670aae0ee.pdf - https://arxiv.org/html/2410.20779 - https://www.frontiersin.org/journals/education/articles/10.3389/feduc.2023.1077882/pdf - https://www.researchgate.net/publication/321918189_Instruction_of_Digital_Reading_Strategies_Based_on_Eye-Movements_Modeling_Examples - https://www.researchgate.net/publication/384698777_Fine-Grained_Prediction_of_Reading_Comprehension_from_Eye_Movements - https://pmc.ncbi.nlm.nih.gov/articles/PMC3875174/ - https://tmalsburg.github.io/MeziereEtAl2021MS.pdf - https://www.tandfonline.com/doi/full/10.1080/10888438.2023.2232063 - https://osf.io/preprints/psyarxiv/96k2u/downloadEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen