Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Digitalisierung und die zunehmende Komplexität von Dokumenten stellen Unternehmen vor Herausforderungen bei der effizienten Extraktion und Verarbeitung von Informationen. Traditionelle Optical Character Recognition (OCR)-Systeme konzentrieren sich primär auf die Texterkennung und behandeln grafische Elemente oft als isolierte Bildbereiche. Dies führt zu einem Verlust an strukturellen und semantischen Informationen, die in Diagrammen, Tabellen und anderen visuellen Komponenten enthalten sind. Angesichts der wachsenden Bedeutung von großen Sprachmodellen (LLMs) und multimodalen Modellen entsteht die Notwendigkeit für umfassendere Ansätze im Dokumenten-Parsing, die Text und Grafiken integriert verarbeiten können. Ein neuer Forschungsansatz, Multimodal OCR (MOCR), zielt darauf ab, diese Lücke zu schließen und eine ganzheitliche Dokumentenanalyse zu ermöglichen.
Multimodales OCR (MOCR) repräsentiert einen erweiterten Ansatz zur Dokumentenanalyse, der über die reine Texterkennung hinausgeht. Ziel ist es, sämtliche informationstragenden Elemente eines Dokuments, sowohl textuelle als auch grafische, in einer einheitlichen, strukturierten und wiederverwendbaren Form zu erfassen. Dazu gehören nicht nur Text und Layout-Strukturen, sondern auch komplexe Grafiken wie Diagramme, Icons und UI-Komponenten. Im Gegensatz zu herkömmlichen OCR-Pipelines, die grafische Bereiche oft als einfache Bildausschnitte behandeln, interpretiert MOCR visuelle Elemente als erstklassige Parsing-Ziele und wandelt sie in wiederverwendbare, strukturierte Ausgaben um, beispielsweise in renderbaren SVG-Code.
Dieses Paradigma bietet mehrere Vorteile:
Die praktische Umsetzung dieses Paradigmas erfordert jedoch die Bewältigung spezifischer Herausforderungen, insbesondere im Hinblick auf die Skalierbarkeit. Dazu gehören die Knappheit von Supervision für Grafiken, die nicht-eindeutigkeit renderbarer Programme und die Notwendigkeit einer präzisen visuellen Verankerung in Verbindung mit der Generierung langer, strukturierter Sequenzen.
Um die Herausforderungen des MOCR-Paradigmas zu adressieren, wurde das System dots.mocr entwickelt. Es handelt sich um ein kompaktes Modell mit 3 Milliarden Parametern, das durch gestuftes Vortraining und überwachtes Fine-Tuning trainiert wurde. Die Architektur von dots.mocr basiert auf drei Hauptkomponenten:
Der Vision Encoder ist ein von Grund auf neu trainiertes 1,2 Milliarden Parameter starkes Backbone. Dieses Design stellt sicher, dass der Encoder Merkmalsrepräsentationen entwickelt, die nativ für das Dokumenten-Parsing optimiert sind. Dies ermöglicht die gemeinsame Modellierung von dichtem Text und geometrieempfindlichen visuellen Symbolen wie Diagrammen und Schaltplänen. Die Architektur ist darauf ausgelegt, hochauflösende Eingaben von bis zu 11 Megapixeln zu verarbeiten, was für die Erhaltung feiner Details und die räumliche Kohärenz über eine gesamte Seite hinweg unerlässlich ist.
Als autoregressiver Decoder wird Qwen2.5-1.5B eingesetzt. Die Wahl dieses Modells berücksichtigt das Kapazitäts- und Kosten-Verhältnis für das vereinheitlichte MOCR-Parsing. Kleinere Modelle könnten Schwierigkeiten haben, heterogene Seiteninhalte (Text, Layoutstrukturen, visuelle Symbole) gleichzeitig zu verarbeiten und lange, hochstrukturierte Ausgaben wie SVG-Programme in einem einzigen autoregressiven Dekodierungsprozess zu generieren. Größere Decoder würden hingegen die Trainings- und Inferenzkosten erheblich erhöhen.
Die Trainingsstrategie von dots.mocr ist datengesteuert und erfolgt in drei aufeinanderfolgenden Phasen:
Die Daten-Engine, die für das Training von dots.mocr verwendet wird, ist umfassend und stützt sich auf vier komplementäre Quellen:
Diese Daten-Engine ermöglicht ein vereinheitlichtes Training über Text-Parsing und visuell-symbolisches Parsing hinweg und wandelt zuvor rasterbasierte Grafiken in wiederverwendbare Programmsupervision für MOCR um.
Die Leistungsfähigkeit von dots.mocr wurde umfassend anhand verschiedener Benchmarks bewertet, die sowohl das Dokumenten-Parsing als auch das strukturierte Grafik-Parsing umfassen. Ein zentrales Element der Evaluation ist das automatisierte Framework OCR Arena.
Herkömmliche Metriken wie die Wortfehlerrate (WER) oder die normalisierte Editierdistanz (NED) sowie strukturbezogene Scores wie TEDS für Tabellen und CDM für Formeln sind oft unzureichend, um die tatsächliche End-to-End-Qualität komplexer Markdown-OCR-Ausgaben widerzuspiegeln. Sie basieren auf regelbasierten Vergleichen mit der Ground Truth und sind anfällig für geringfügige, aber semantisch äquivalente Serialisierungen. Um diese Einschränkungen zu überwinden, wurde OCR Arena entwickelt. Es ist ein automatisiertes Bewertungsframework, das auf dem "LLM-as-a-Judge"-Paradigma basiert. Ein leistungsstarkes Vision-Language-Modell (z.B. Gemini 3 Flash) bewertet dabei Paare von Modellausgaben, die auf demselben Originaldokumentbild und den generierten Markdown-Transkriptionen basieren. Es wird beurteilt, welches Ergebnis die Treue, Struktur und Formatierung besser bewahrt, oder ein Unentschieden deklariert, wenn beide vergleichbar sind.
Um die Integrität des Benchmarking zu gewährleisten und Verzerrungen zu minimieren, wird ein symmetrisches Evaluationsprotokoll angewendet. Jede paarweise Vergleich zwischen Modell A und Modell B wird in zwei separaten Durchläufen durchgeführt, wobei die Präsentationsreihenfolge der Modelle variiert wird. Ein Modell erhält nur dann einen Sieg zugesprochen, wenn die Entscheidung des Judges in beiden Durchläufen konsistent bleibt. Die Ergebnisse von Tausenden von paarweisen Vergleichen werden mithilfe des Elo-Bewertungssystems zu einer einheitlichen Rangliste zusammengeführt, um eine dynamische und skalierbare Bewertung zu ermöglichen. Das finale Elo-Rating wird durch Bootstrap-Resampling statistisch abgesichert, indem 1.000 Iterationen der Elo-Berechnung mit zufällig gemischter Kampfhistorie durchgeführt werden.
Auf Dokumenten-Parsing-Benchmarks wie olmOCR-Bench, OmniDocBench (v1.5) und XDocParse erzielt dots.mocr die stärkste Elo-Leistung unter den Open-Source-Modellen. Dies deutet auf eine durchweg hohe Qualität des Text- und Sprach-Parsings hin. Gemini 3 Pro nimmt in diesem Vergleich den ersten Platz ein. Insbesondere auf olmOCR-Bench erreicht dots.mocr die beste Gesamtpunktzahl und die höchsten Werte in Kategorien wie ArXiv, "Old scans math", Tabellen und "Multi column". Dies unterstreicht die Fähigkeit des Modells, auch in anspruchsvollen Dokumentenbereichen präzise Ergebnisse zu liefern.
Im Bereich des strukturierten Grafik-Parsings wurde dots.mocr auf einem vielfältigen Satz von Benchmarks evaluiert, darunter allgemeine Vektorgrafiken (UniSVG), wissenschaftliche Diagramme (ChartMimic), Webseiten- und UI-Layouts (Design2Code), Prüfungsdiagramme (GenExam), wissenschaftliche Abbildungen (SciGen) und chemische Strukturdiagramme (ChemDraw). Das Modell dots.mocr-svg, eine Variante von dots.mocr, die stärker auf visuell-sprachliche Daten trainiert wurde, erzielt dabei die beste Gesamtleistung über alle Datensätze hinweg. Es übertrifft OCRVerse und zeigt eine höhere Rekonstruktionsqualität als Gemini 3 Pro bei Image-to-SVG-Benchmarks. Die Verbesserungen sind besonders deutlich bei struktursensiblen Aufgaben wie ChartMimic und ChemDraw, während die Leistung bei Layouts und wissenschaftlichen Abbildungen stark bleibt.
Trotz der primären Ausrichtung auf multimodales strukturiertes Parsing zeigt dots.mocr auch eine hohe Wettbewerbsfähigkeit bei der allgemeinen Vision-Language-Fähigkeit. Auf Benchmarks wie CharXiv, OCR Reasoning, InfoVQA, DocVQA und ChartQA erzielt dots.mocr durchweg starke Ergebnisse. Dies deutet darauf hin, dass die Vereinheitlichung des Dokumenten-Parsings mit einem breiteren VLM-Training die allgemeine Leistung nicht beeinträchtigt. Das Modell bewahrt breite visuelle Verankerungs- und Argumentationsfähigkeiten über das reine Parsing hinaus, was sich in soliden Leistungen auf OCRBench, AI2D, CountBenchQA und RefCOCO widerspiegelt.
Das Multimodale OCR (MOCR) eröffnet neue Perspektiven für die Dokumentenanalyse und die Konstruktion großer multimodaler Vortrainingskorpora. Die Fähigkeit, Dokumentengrafiken in Bild-Code-Paare umzuwandeln, bietet eine skalierbare Pipeline zur Erzeugung von präzisen Bild-, Code- und Text-Tripeln. Diese können als steuerbare und perturbierbare Trainingsdaten dienen, deren Umfang lediglich durch die Anzahl verfügbarer Dokumente begrenzt wird.
Obwohl die aktuelle Arbeit das Grafik-Parsing als Bild-zu-SVG-Konvertierung realisiert, ist das MOCR-Paradigma nicht auf eine spezifische Repräsentation beschränkt. Zukünftige Erweiterungen könnten andere Programmbereiche wie TikZ für wissenschaftliche Abbildungen, D3.js für interaktive Visualisierungen, CAD-Formate für technische Zeichnungen oder domänenspezifisches Markup für chemische Strukturen und Schaltpläne umfassen. Die Möglichkeit, ganze Webseiten mit vielfältigen Layouts, eingebetteten Grafiken und mehrsprachigen Inhalten zu parsen, erweitert zudem den Pool an verfügbaren Trainingsdaten erheblich über herkömmliche PDF-zentrierte Korpora hinaus.
Auf Systemebene bietet MOCR auch neue Möglichkeiten für die Datenkonstruktion und -evaluierung. Die Daten-Engine zeigt, dass eine prinzipielle Normalisierung, kombiniert mit renderbasierter Verifikation, die Herausforderung nicht-eindeutiger Programmziele bewältigen kann. Die Skalierung dieser Qualitätskontrollmechanismen durch engere Render-Verifikationsschleifen, Belohnungsmodell-Filterung und sich selbst verbessernde Datenkuratierung bietet einen klaren Weg zu weiteren Verbesserungen. Darüber hinaus bietet das OCR Arena-Framework eine praktische Alternative zu anfälligen regelbasierten Metriken. Ähnliche Richter-basierte Evaluierungsprotokolle könnten zunehmend wichtiger werden, da die Komplexität und Repräsentationsvielfalt von Parsing-Ausgaben wächst.
Zusammenfassend lässt sich sagen, dass MOCR das Dokumenten-Parsing von der reinen Textextraktion zu einem strukturierten Verständnis aller informationstragenden Elemente erweitert. Durch die Umwandlung visueller Symbole in wiederverwendbaren, renderbaren strukturierten Code wird eine neue Quelle der Supervision erschlossen, die für Reasoning und maschinelles Lernen genutzt werden kann. Dies erweitert nicht nur den Umfang des Dokumenten-Parsings, sondern erhöht auch die Menge an nutzbarer Supervision, die aus großen Dokumentenkorpora extrahiert werden kann. Es deutet auf einen Wandel hin zu einem dokumenten-nativen multimodalen Parsing, das die gesamte visuelle Sprache des menschlichen Wissens erfasst.
Bibliography - Zheng, H., Li, Y., Zhang, K., Xin, L., Zhao, G., Liu, H., Chen, J., Lou, J., Qiu, J., Fu, Q., Yang, R., Jiang, S., Luo, W., Su, W., Zhang, W., Zhu, X., Li, Y., Ma, Y., Chen, Y., Yu, Z., Yang, G., Zhang, C., Zhang, L., Liu, Y., & Bai, X. (2026). Multimodal OCR: Parse Anything from Documents. arXiv preprint arXiv:2603.13032. - Khaliq, A. (2026). Multimodal OCR Parse Anything from Documents. LinkedIn Post. - OCR Arena. (n.d.). OCR Model Leaderboard. Retrieved from https://www.ocrarena.ai/leaderboard - Reddit. (n.d.). We made the most comprehensive, open-source OCR benchmark. Retrieved from https://www.reddit.com/r/opensource/comments/1iu8uud/we_made_the_most_comprehensive_opensource_ocr/ - F22 Labs. (2026). How Good Is LightOnOCR-2-1B for Document OCR and Parsing? Retrieved from https://www.f22labs.com/blogs/how-good-is-lightonocr-2-1b-for-document-ocr-and-parsing/ - Poznanski, J., Soldaini, L., & Lo, K. (2025). olmOCR 2: Unit Test Rewards for Document OCR. arXiv preprint arXiv:2510.19817v1. - Liu, Z. (n.d.). Computer Vision and Pattern Recognition. papers.cool. Retrieved from https://papers.cool/arxiv/cs.CVLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen