KI für Ihr Unternehmen – Jetzt Demo buchen

Neue Ansätze in der Textverarbeitung: SeeTok und der Übergang zu visuellem Lesen

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Herkömmliche Large Language Models (LLMs) basieren auf Subword-Tokenisierung, die Text in feste Vokabularstücke zerlegt.
    • Diese Methode führt bei ressourcenarmen Sprachen oft zu einer übermäßigen Segmentierung und ineffizienten Berechnungen.
    • Das neue Modell SeeTok von Ling Xing et al. verfolgt einen visionszentrierten Ansatz, indem es Text als Bilder (Visual-Text) rendert.
    • SeeTok nutzt vortrainierte multimodale LLMs, um diese visuellen Texte zu interpretieren, und profitiert von starken OCR- und Text-Vision-Abgleichfähigkeiten.
    • Die Methode reduziert die benötigte Token-Anzahl um das 4,43-fache und die FLOPs um 70,5 %, während sie gleichzeitig die Leistung von Subword-Tokenizern erreicht oder übertrifft.
    • Zusätzliche Vorteile sind eine verbesserte sprachübergreifende Generalisierung und Robustheit gegenüber typografischem Rauschen.

    Revolution in der Textverarbeitung: SeeTok – Vom Token zum visuellen Lesen

    Die Art und Weise, wie Künstliche Intelligenzen Text verarbeiten, steht möglicherweise vor einem fundamentalen Wandel. Während aktuelle Large Language Models (LLMs) primär auf der sogenannten Subword-Tokenisierung basieren, welche Text in kleinere, vorab definierte Einheiten zerlegt, zeigt eine neue Forschungsarbeit einen vielversprechenden visionszentrierten Ansatz. Dieser könnte die Effizienz und Robustheit der Textverarbeitung erheblich verbessern, insbesondere für Sprachen mit geringen Ressourcen.

    Die Grenzen der traditionellen Tokenisierung

    Bei der herkömmlichen Subword-Tokenisierung wird Text in Fragmente aus einem festen Vokabular zerlegt. Dieses Verfahren hat sich in Sprachen mit reichhaltigen Datenbeständen als effektiv erwiesen. Bei ressourcenarmen Sprachen führt es jedoch oft zu einer "Übersegmentierung". Das bedeutet, dass Wörter oder Phrasen in viele kleine, linguistisch bedeutungsvolle Einheiten aufgeteilt werden, was zu längeren, ineffizienten Sequenzen führt und den Rechenaufwand unnötig erhöht. Dieser Ansatz unterscheidet sich grundlegend von der menschlichen Leseweise, bei der wir Wörter als visuelle Objekte erkennen, ihre Formen, Layouts und Muster erfassen, bevor wir ihnen eine Bedeutung zuweisen. Diese visuelle Fähigkeit ermöglicht es uns, Tippfehler, verzerrte Schriftarten und unterschiedliche Schreibweisen effektiv zu verarbeiten.

    SeeTok: Ein visionszentrierter Paradigmenwechsel

    Ein Team von Forschern um Ling Xing, Alex Jinpeng Wang, Rui Yan, Hongyu Qu, Zechao Li und Jinhui Tang stellt mit "SeeTok" eine Methode vor, die dieses etablierte Paradigma herausfordert. SeeTok rendert Text als Bilder (Visual-Text) und nutzt vortrainierte multimodale LLMs, um diese visuellen Darstellungen zu interpretieren. Der Kern des Ansatzes liegt in der Wiederverwendung von starken Optical Character Recognition (OCR)- und Text-Vision-Abgleichfähigkeiten, die aus groß angelegten multimodalen Trainings gelernt wurden.

    Nachgewiesene Effizienz und Robustheit

    Die Ergebnisse der Studie sind bemerkenswert: In drei verschiedenen Sprachaufgaben erreicht oder übertrifft SeeTok die Leistung herkömmlicher Subword-Tokenizer. Dabei benötigt es 4,43-mal weniger Tokens und reduziert die Floating Point Operations (FLOPs) um 70,5 %. Diese Effizienzsteigerung ist ein entscheidender Vorteil, da die Rechenkosten und der Speicherbedarf von LLMs oft eine limitierende Größe darstellen. Darüber hinaus bietet SeeTok weitere Vorteile:

    • Sprachübergreifende Generalisierung: Der visuelle Ansatz ermöglicht eine bessere Anpassung an verschiedene Sprachen, da die visuellen Muster von Schriftzeichen oft universeller sind als die spezifischen linguistischen Strukturen, die in Subword-Tokenizern verankert sind.
    • Robustheit gegenüber typografischem Rauschen: Ähnlich wie Menschen kann SeeTok mit unterschiedlichen Schriftarten, Größen und leichten Verformungen besser umgehen, da es die visuellen Merkmale des Textes direkt verarbeitet.
    • Linguistische Hierarchie: Die Fähigkeit, Text als visuelles Ganzes zu erfassen, könnte den Modellen helfen, linguistische Hierarchien und die Beziehungen zwischen Wörtern und Phrasen auf eine natürlichere Weise zu verstehen.

    Implikationen für die Künstliche Intelligenz

    SeeTok signalisiert einen möglichen Paradigmenwechsel von der symbolischen Tokenisierung hin zu einem menschenähnlichen visuellen Lesen. Dieser Schritt könnte zu natürlicheren und kognitiv inspirierteren Sprachmodellen führen. Für B2B-Anwendungen, insbesondere in Bereichen wie der Dokumentenanalyse, der automatisierten Datenextraktion oder der mehrsprachigen Kommunikation, könnten die Vorteile erheblich sein. Eine effizientere Verarbeitung großer Textmengen, eine verbesserte Genauigkeit bei unterschiedlichen Schriftbildern und eine stärkere sprachübergreifende Leistungsfähigkeit würden die Einsatzmöglichkeiten und den ROI von KI-Lösungen deutlich steigern.

    Die Forschung verdeutlicht, dass die Art und Weise, wie Informationen für LLMs aufbereitet werden, einen massiven Einfluss auf deren Leistung und Effizienz hat. Der Übergang zu einem visuellen Verständnis von Text, der die Art und Weise nachahmt, wie Menschen lesen, könnte der nächste große Schritt in der Entwicklung von KI-Sprachmodellen sein. Unternehmen, die auf KI-Technologien setzen, sollten diese Entwicklungen genau beobachten, um zukünftige Innovationen optimal nutzen zu können.

    Bibliography - Xing, L., Wang, A. J., Yan, R., Qu, H., Li, Z., & Tang, J. (2025). See the Text: From Tokenization to Visual Reading. arXiv preprint arXiv:2510.18840. - Karpathy, A. (2025). Karpathy on DeepSeek-OCR paper: Are pixels better inputs to LLMs than text? (X post). - Chan, D. M., Corona, R., Park, J., Cho, C. J., Bai, Y., & Darrell, T. (2024). Analyzing The Language of Visual Tokens. arXiv preprint arXiv:2411.05001. - Ganz, R., Nuriel, O., Aberdam, A., Kittenplon, Y., Mazor, S., & Litman, R. (2023). Towards models that can see and read. Amazon Science. - Various discussions and comments on Hacker News regarding "DeepSeek OCR" and "See the Text: From Tokenization to Visual Reading" (October 2025).

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen