Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Art und Weise, wie Künstliche Intelligenzen Text verarbeiten, steht möglicherweise vor einem fundamentalen Wandel. Während aktuelle Large Language Models (LLMs) primär auf der sogenannten Subword-Tokenisierung basieren, welche Text in kleinere, vorab definierte Einheiten zerlegt, zeigt eine neue Forschungsarbeit einen vielversprechenden visionszentrierten Ansatz. Dieser könnte die Effizienz und Robustheit der Textverarbeitung erheblich verbessern, insbesondere für Sprachen mit geringen Ressourcen.
Bei der herkömmlichen Subword-Tokenisierung wird Text in Fragmente aus einem festen Vokabular zerlegt. Dieses Verfahren hat sich in Sprachen mit reichhaltigen Datenbeständen als effektiv erwiesen. Bei ressourcenarmen Sprachen führt es jedoch oft zu einer "Übersegmentierung". Das bedeutet, dass Wörter oder Phrasen in viele kleine, linguistisch bedeutungsvolle Einheiten aufgeteilt werden, was zu längeren, ineffizienten Sequenzen führt und den Rechenaufwand unnötig erhöht. Dieser Ansatz unterscheidet sich grundlegend von der menschlichen Leseweise, bei der wir Wörter als visuelle Objekte erkennen, ihre Formen, Layouts und Muster erfassen, bevor wir ihnen eine Bedeutung zuweisen. Diese visuelle Fähigkeit ermöglicht es uns, Tippfehler, verzerrte Schriftarten und unterschiedliche Schreibweisen effektiv zu verarbeiten.
Ein Team von Forschern um Ling Xing, Alex Jinpeng Wang, Rui Yan, Hongyu Qu, Zechao Li und Jinhui Tang stellt mit "SeeTok" eine Methode vor, die dieses etablierte Paradigma herausfordert. SeeTok rendert Text als Bilder (Visual-Text) und nutzt vortrainierte multimodale LLMs, um diese visuellen Darstellungen zu interpretieren. Der Kern des Ansatzes liegt in der Wiederverwendung von starken Optical Character Recognition (OCR)- und Text-Vision-Abgleichfähigkeiten, die aus groß angelegten multimodalen Trainings gelernt wurden.
Die Ergebnisse der Studie sind bemerkenswert: In drei verschiedenen Sprachaufgaben erreicht oder übertrifft SeeTok die Leistung herkömmlicher Subword-Tokenizer. Dabei benötigt es 4,43-mal weniger Tokens und reduziert die Floating Point Operations (FLOPs) um 70,5 %. Diese Effizienzsteigerung ist ein entscheidender Vorteil, da die Rechenkosten und der Speicherbedarf von LLMs oft eine limitierende Größe darstellen. Darüber hinaus bietet SeeTok weitere Vorteile:
SeeTok signalisiert einen möglichen Paradigmenwechsel von der symbolischen Tokenisierung hin zu einem menschenähnlichen visuellen Lesen. Dieser Schritt könnte zu natürlicheren und kognitiv inspirierteren Sprachmodellen führen. Für B2B-Anwendungen, insbesondere in Bereichen wie der Dokumentenanalyse, der automatisierten Datenextraktion oder der mehrsprachigen Kommunikation, könnten die Vorteile erheblich sein. Eine effizientere Verarbeitung großer Textmengen, eine verbesserte Genauigkeit bei unterschiedlichen Schriftbildern und eine stärkere sprachübergreifende Leistungsfähigkeit würden die Einsatzmöglichkeiten und den ROI von KI-Lösungen deutlich steigern.
Die Forschung verdeutlicht, dass die Art und Weise, wie Informationen für LLMs aufbereitet werden, einen massiven Einfluss auf deren Leistung und Effizienz hat. Der Übergang zu einem visuellen Verständnis von Text, der die Art und Weise nachahmt, wie Menschen lesen, könnte der nächste große Schritt in der Entwicklung von KI-Sprachmodellen sein. Unternehmen, die auf KI-Technologien setzen, sollten diese Entwicklungen genau beobachten, um zukünftige Innovationen optimal nutzen zu können.
Bibliography - Xing, L., Wang, A. J., Yan, R., Qu, H., Li, Z., & Tang, J. (2025). See the Text: From Tokenization to Visual Reading. arXiv preprint arXiv:2510.18840. - Karpathy, A. (2025). Karpathy on DeepSeek-OCR paper: Are pixels better inputs to LLMs than text? (X post). - Chan, D. M., Corona, R., Park, J., Cho, C. J., Bai, Y., & Darrell, T. (2024). Analyzing The Language of Visual Tokens. arXiv preprint arXiv:2411.05001. - Ganz, R., Nuriel, O., Aberdam, A., Kittenplon, Y., Mazor, S., & Litman, R. (2023). Towards models that can see and read. Amazon Science. - Various discussions and comments on Hacker News regarding "DeepSeek OCR" and "See the Text: From Tokenization to Visual Reading" (October 2025).Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen