Neues multilingualen Vision-Language-Modell revolutioniert die optische Zeichenerkennung

Kategorien:

No items found.

Freigegeben:

January 22, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

LightOnOCR-2-1B ist ein neues, multilinguales Vision-Language-Modell (VLM) mit 1 Milliarde Parametern für die optische Zeichenerkennung (OCR).
Es wandelt Dokumentbilder (z.B. PDFs) end-to-end in sauberen, natürlich geordneten Text um, ohne auf komplexe mehrstufige OCR-Pipelines angewiesen zu sein.
Das Modell erreicht auf dem OlmOCR-Bench State-of-the-Art-Ergebnisse und ist dabei bis zu neunmal kleiner und wesentlich schneller als vergleichbare Modelle.
LightOnOCR-2-1B unterstützt auch die Vorhersage von Bounding Boxes für eingebettete Bilder, um die Lokalisierung von visuellen Elementen zu ermöglichen.
Die verbesserte Leistung basiert auf einem größeren und qualitativ hochwertigeren Trainingsdatensatz, einer höheren Auflösung während des Trainings und der Anwendung von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR).
Das Modell ist besonders leistungsfähig bei wissenschaftlichen PDFs, gescannten Dokumenten, europäischen Sprachen und textlastigen Seiten wie mehrspaltigen Dokumenten und Tabellen.
Es ist unter der Apache 2.0 Lizenz verfügbar, zusammen mit zugehörigen Datensätzen und einem Benchmark für die Bildlokalisierung.

Die digitale Transformation hat die Notwendigkeit einer effizienten Umwandlung von Dokumenten in maschinenlesbare Daten drastisch erhöht. In diesem Kontext präsentiert LightOn mit LightOnOCR-2-1B eine Entwicklung, die das Potenzial hat, die optische Zeichenerkennung (OCR) sowie das Dokumentenverständnis neu zu definieren. Dieses 1-Milliarde-Parameter-Modell ist ein multilinguales Vision-Language-Modell (VLM), das einen end-to-end Ansatz verfolgt und damit traditionelle OCR-Pipelines überwindet.

Ein Paradigmenwechsel in der OCR-Technologie

Traditionelle OCR-Systeme basieren oft auf mehrstufigen Pipelines, die verschiedene Komponenten für Layoutanalyse, Texterkennung, Tabellenextraktion und Lesereihenfolge-Rekonstruktion umfassen. Während diese Ansätze in vielen Szenarien effektiv sein können, sind sie anfällig für Fehler, schwierig anzupassen und erfordern bei der Anpassung an neue Dokumenttypen oder -verteilungen oft erhebliche manuelle Eingriffe und zusätzliche Annotationen.

LightOnOCR-2-1B hingegen integriert diese Schritte in ein einziges, vereinheitlichtes Modell. Es lernt die Extraktion direkt von den Pixeln zu strukturiertem Text, was den technischen Aufwand reduziert und eine kontinuierliche Verbesserung sowie Spezialisierung durch einfaches Fine-Tuning ermöglicht. Dies eliminiert die Notwendigkeit, jede Stufe einer Pipeline neu zu konfigurieren.

Architektur und Trainingsmethodik

Die Architektur von LightOnOCR-2-1B ist ein kompaktes VLM, das aus drei Hauptkomponenten besteht:

Vision Encoder: Ein Vision Transformer (ViT), der variable Bildgrößen verarbeitet und dabei die räumliche Struktur beibehält, was für Dokumente mit unterschiedlichen Seitenverhältnissen und feinen typografischen Details entscheidend ist.
Multimodaler Projektor: Ein zweischichtiges MLP, das visuelle Merkmale in den Embedding-Raum des Sprachmodells projiziert und dabei die Sequenzlänge durch räumliches Merging kontrolliert.
Sprachmodell-Decoder: Initialisiert von einem vortrainierten Qwen3-Modell, erzeugt der Decoder eine linearisierte Darstellung der Seite, die die Lesereihenfolge beibehält und strukturierte Tokens für nicht-textliche Elemente ausgibt.

Die Initialisierung von robusten vortrainierten Komponenten ermöglicht es LightOnOCR, starke visuelle Repräsentationen und multilinguale Sprachmodellierungsfähigkeiten zu erben, was die Übertragung auf OCR mit reduzierten Trainingskosten erleichtert.

Fortschritte in der Datenverarbeitung und -aufbereitung

Ein wesentlicher Faktor für die verbesserte Leistung von LightOnOCR-2-1B ist der umfangreichere und sauberere Trainingsdatensatz. Das Modell wurde auf einer umfassenden Mischung aus OCR-Datensätzen trainiert, die primär durch Destillation erstellt wurde. Ein leistungsfähigeres Vision-Language-Modell (Qwen3-VL-235B-A22B-Instruct) wurde als "Lehrer" eingesetzt, um natürlich geordnete Transkriptionen aus gerenderten PDF-Seiten zu erzeugen. Dies führte zu einer präziseren mathematischen Notation und weniger Formatierungsartefakten.

Der Datensatz deckt eine breite Palette ab, darunter Scans, französische Dokumente und wissenschaftliche PDFs, und wurde durch eine verbesserte Datenkuratierungspipeline ergänzt. Die Einschluss von Dokumentenregions-Ausschnitten und expliziten Leerseitenbeispielen trug dazu bei, das Modell an verschiedene Formate anzupassen und Schleifenverhalten oder Halluzinationen zu mindern.

Eine weitere Innovation ist die Verwendung einer nvpdftex-basierten arXiv-Kuratierungspipeline, die pixelgenaue Annotationen aus TeX-Quellen liefert. Dies stärkt die wissenschaftliche OCR-Überwachung und ermöglicht die Generierung eines automatischen Unterdatensatzes für den Lokalisierungs-Benchmark.

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR)

LightOnOCR-2-1B integriert Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), um hartnäckige Fehlermodi zu adressieren, die mit rein überwachtem Lernen schwer zu beheben sind. RLVR verwendet automatische Prüfungen, die deterministisch auf Modellausgaben evaluiert werden können, wie z.B. binäre Unit-Tests auf synthetischen Dokumenten. Dies ermöglicht eine direkte Optimierung für spezifische OCR-Fehler, ohne zusätzliche Daten annotieren zu müssen.

Zwei RLVR-Rezepte wurden angewendet:

Eine OCR-fokussierte Variante, die OlmOCR-Unit-Tests mit zusätzlichen Belohnungen für wissenschaftliche Dokumente erweitert.
Eine Bounding-Box-fokussierte Variante, die IoU-basierte Lokalisierungsbelohnungen optimiert.

Diese Methodik verbessert die Robustheit des Modells gegenüber Wiederholungsschleifen, mathematischen Render- und Formatierungsfehlern sowie layoutsensitiven Konsistenzbeschränkungen.

Leistung und Effizienz

LightOnOCR-2-1B erzielt auf dem OlmOCR-Bench die höchste Gesamtpunktzahl unter den evaluierten Systemen, obwohl es deutlich kleiner ist. Es übertrifft größere End-to-End-Modelle mit nur 1 Milliarde Parametern und ist vollständig End-to-End trainierbar. Die Verbesserungen sind breit gefächert, mit besonders starken Ergebnissen bei arXiv-Dokumenten, alten Scans mit mathematischen Inhalten und tabellenlastigen Dokumenten.

Neben der Genauigkeit zeichnet sich LightOnOCR-2-1B durch seine Effizienz aus. Es erreicht eine hohe Verarbeitungsgeschwindigkeit von 5,71 Seiten pro Sekunde auf einer einzelnen NVIDIA H100 GPU. Dies macht es besonders geeignet für die Verarbeitung großer Dokumentenmengen und senkt die Kosten erheblich, da es weniger als 0,01 USD pro 1.000 Seiten kostet. Im Vergleich dazu sind proprietäre OCR-Dienste oft deutlich teurer.

Bildlokalisierung und Bounding Boxes

Eine weitere wichtige Funktionalität von LightOnOCR-2-1B ist die Fähigkeit zur Vorhersage von Bounding Boxes für eingebettete Bilder. Das Modell kann nicht nur Text transkribieren, sondern auch visuelle Elemente in Dokumenten lokalisieren. Dies wird durch die Einführung von Koordinatenüberwachung während des Vortrainings und die Verfeinerung der Lokalisierung mit RLVR unter Verwendung von IoU-basierten Zielen erreicht.

Zur Bewertung dieser Fähigkeit wurde der neue LightOnOCR-bbox-bench-Benchmark eingeführt, der die F1-Metrik, mittlere IoU und Zählgenauigkeit für die Bildlokalisierung misst. LightOnOCR-2-1B-bbox zeigt hierbei eine Verbesserung gegenüber größeren Baselines, was auf eine zuverlässige Erkennung und genaue Lokalisierung von Bildern hindeutet.

Einschränkungen und zukünftige Richtungen

Trotz der bemerkenswerten Fortschritte weist LightOnOCR-2-1B bestimmte Einschränkungen auf. Die multilinguale Leistung außerhalb europäischer/lateinischer Sprachen ist derzeit nicht vollständig unterstützt, da der Trainingsmix und die Normalisierungspipeline lateinische Schriftzeichen priorisieren. Nicht-lateinische Schriften wie CJK oder Arabisch können daher eine geringere Wiedergabetreue oder ineffiziente Tokenisierung aufweisen.

Darüber hinaus bleibt die Transkription von handschriftlichem Text inkonsistent. Obwohl das Modell von der Abdeckung von Scans profitiert, stammen die Überwachungsdaten hauptsächlich aus gedruckten oder gesetzten Quellen. Handschriftliche Texte sind daher kein primäres Anwendungsgebiet für die aktuellen Modellvarianten.

Diese Einschränkungen werden als vielversprechende Richtungen für zukünftige Arbeiten durch gezielte Datenerfassung und -bewertung angesehen.

Fazit

LightOnOCR-2-1B stellt einen bedeutenden Fortschritt in der OCR-Technologie dar. Mit seinem end-to-end Ansatz, der hohen Genauigkeit und der beeindruckenden Effizienz bietet es eine leistungsstarke Lösung für die Umwandlung komplexer Dokumente in maschinenlesbaren Text. Die Fähigkeit, Bounding Boxes für Bilder zu lokalisieren, erweitert den Anwendungsbereich erheblich und unterstützt die Entwicklung intelligenter Dokumentenverarbeitungssysteme.

Die Veröffentlichung des Modells, der Datensätze und des LightOnOCR-bbox-bench-Benchmarks unter einer offenen Lizenz fördert die reproduzierbare Forschung und die Weiterentwicklung im Bereich der hochpräzisen Dokumentenextraktion und -lokalisierung. LightOnOCR-2-1B demonstriert, wie kompakte und spezialisierte Modelle durch innovative Trainingsmethoden und hochwertige Daten auch größere, allgemeinere Systeme übertreffen können.