Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Verarbeitung digitaler Dokumente stellt Unternehmen und Forschungseinrichtungen gleichermaßen vor Herausforderungen. Von wissenschaftlichen Artikeln über Finanzberichte bis hin zu historischen Archiven – die Umwandlung dieser oft komplex strukturierten Informationen in verwertbaren, maschinenlesbaren Text ist eine fundamentale Aufgabe. Herkömmliche OCR-Systeme stoßen dabei häufig an ihre Grenzen, insbesondere bei mehrspaltigen Layouts, dichten Tabellen, mathematischen Notationen oder qualitativ minderwertigen Scans. Das Allen Institute for AI (Ai2) hat mit der Einführung von olmOCR 2 einen signifikanten Fortschritt in diesem Bereich erzielt, der die Art und Weise, wie wir Dokumente verstehen und verarbeiten, neu definieren könnte.
Dokumente sind allgegenwärtig, und ihre digitale Verfügbarkeit ist entscheidend für die Suche, Analyse, Barrierefreiheit und zukünftige KI-Anwendungen. PDFs beispielsweise sind zwar weit verbreitet, speichern Inhalte jedoch primär für die Darstellung auf physischen Seiten und nicht zur Erhaltung einer logischen Textstruktur. Dies führt dazu, dass die Extraktion von Inhalten aus PDFs oft fehleranfällig ist. Traditionelle OCR-Systeme, die oft auf mehrstufigen Pipelines basieren, können bei komplexen Layouts oder beschädigten Dokumenten unzuverlässig sein. Die Anpassung dieser Modelle an spezifische Dokumentformate erfordert zudem oft aufwendige, fehleranfällige Heuristiken.
olmOCR 2 ist ein end-to-end Vision-Language-Modell (VLM), das darauf ausgelegt ist, komplexe Dokumente in einem einzigen Durchlauf zu lesen. Es basiert auf dem Qwen2.5-VL-7B Modell und wurde auf einem umfangreichen Datensatz von 270.000 PDF-Seiten, dem olmOCR-mix-1025, trainiert. Dieser Datensatz umfasst eine breite Palette von Dokumenttypen, darunter wissenschaftliche Arbeiten, historische Scans, juristische Dokumente und Broschüren, ergänzt durch 20.000 Seiten mit schwierigen handschriftlichen und maschinengeschriebenen Texten. Das Modell verarbeitet das Seitenbild mittels eines Vision-Encoders und generiert anschließend strukturierten Text. Dieser Text wird direkt in Form von Markdown für Überschriften und Dokumentstruktur, HTML für Tabellen und LaTeX für mathematische Gleichungen ausgegeben. Dieser direkte strukturelle Output vermeidet die Nachteile mehrstufiger Pipelines, die oft auf nachträglichen Regeln basieren und anfällig für Fehler sind.
Die zentrale Innovation von olmOCR 2 liegt in seiner Trainingsmethodik. Anstatt sich ausschließlich auf die Skalierung von Daten oder Modellgröße zu verlassen, hat Ai2 ein System von verifizierbaren unit-Tests als direkte Belohnungen während des Trainings eingeführt. Dieser Ansatz, bekannt als Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), ermöglicht es dem Modell, direkt an der Korrektheit der Ausgabe zu lernen. Die Entwickler schufen eine synthetische Dokumentenpipeline, die Trainingsdaten mit integrierten programmatischen Prüfungen für Eigenschaften wie Tabellenstruktur, mathematische Transkription und Lesereihenfolge generiert. Das Modell wird mittels Group Relative Policy Optimization (GRPO) trainiert, wobei Vervollständigungen, die mehr unit-Tests bestehen, höhere Belohnungen erhalten. Dies führt dazu, dass das Modell lernt, präzise und strukturierte Ausgaben zu produzieren, anstatt nur Annäherungen.
Die Belohnungen umfassen:
Ein entscheidender Aspekt ist, dass der olmOCR-Bench-Benchmark denselben unit-Test-Ansatz für die Evaluierung verwendet. Dies stellt sicher, dass das Trainingsziel direkt auf den Benchmark abgestimmt ist, wobei Trainings- und Testdaten strikt getrennt bleiben.
olmOCR 2 erzielt auf dem olmOCR-Bench-Benchmark 82,4 Punkte, was eine Verbesserung von fast 4 Punkten gegenüber der vorherigen Version darstellt. Das Modell übertrifft spezialisierte Tools wie Marker (76,1 Punkte) und MinerU (75,8 Punkte) sowie allgemeine VLMs. Besonders signifikante Verbesserungen wurden in Bereichen erzielt, in denen OCR traditionell Schwierigkeiten hat:
Auch historische Texte zeigen eine verbesserte Genauigkeit. Ein Beispiel ist die korrekte Interpretation der Handschrift von Abraham Lincoln in einem Brief vom 10. Januar 1864, die frühere olmOCR-Versionen oft falsch interpretierten. Diese Leistungssteigerungen gehen einher mit einer flexiblen Bereitstellung. Ein FP8-quantisiertes Modell erreicht 3.400 Ausgabetoken pro Sekunde auf einer einzelnen H100-GPU, was die Verarbeitung von 10.000 Seiten für weniger als 2 US-Dollar ermöglicht.
Ai2 stellt die Modellgewichte von olmOCR 2 sowohl in FP8- als auch in voller Präzision auf Hugging Face zur Verfügung, zusammen mit den Datensätzen und dem Code für Training und Feinabstimmung. Für eine einfachere Experimentierphase und Bereitstellung ist das Modell auch über APIs von DeepInfra und Parasail erhältlich. Das olmOCR-Toolkit bietet zudem alles Notwendige zur großflächigen Dokumentenverarbeitung, einschließlich Inferenz-Pipelines, Dienstprogrammen zur automatischen Extraktion und Integration von PDF-Metadaten, Batch-Verarbeitungstools und Skripten zur Feinabstimmung. Dies ermöglicht es Unternehmen, die leistungsstarken OCR-Funktionen an ihre individuellen Bedürfnisse anzupassen, ohne komplexe technische Anpassungen vornehmen zu müssen.
Die Veröffentlichung von olmOCR 2 markiert einen Wendepunkt in der KI-gestützten Dokumenten-OCR. Durch die Neukonzeption des Lernprozesses von Modellen, die sich auf nachweisbare Korrektheit konzentrieren, bietet Ai2 eine Lösung, die nicht nur hochpräzise, sondern auch anpassbar und reproduzierbar ist. Dies vereinfacht technische Architekturen und erhöht die Vertrauenswürdigkeit von Ergebnissen in Bereichen wie Forschung, Compliance, Barrierefreiheit und Informationsfindung. Die Fähigkeit, komplexe Dokumente präzise zu verarbeiten und strukturierte Ausgaben zu generieren, ist ein entscheidender Schritt zur vollständigen Erschließung des Potenzials digitaler Dokumente für eine Vielzahl von Anwendungen.
Die kontinuierliche Weiterentwicklung und die Bereitstellung von Open-Source-Ressourcen durch Ai2 fördern zudem die Forschung und Entwicklung in diesem wichtigen Bereich. Die olmOCR-Community kann somit von den neuesten Fortschritten profitieren und zur weiteren Verbesserung dieser Technologie beitragen.
Bibliography: - [2510.19817] olmOCR 2: Unit Test Rewards for Document OCR - arXiv. (n.d.). Retrieved from https://arxiv.org/abs/2510.19817 - olmOCR 2: Unit test rewards for document OCR - Ai2. (n.d.). Retrieved from https://allenai.org/blog/olmocr-2 - olmOCR 2 Redefines AI Document OCR Accuracy. (n.d.). Retrieved from https://www.startuphub.ai/ai-news/ai-research/2025/olmocr-2-redefines-ai-document-ocr-accuracy/ - allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training. (n.d.). Retrieved from https://github.com/allenai/olmocr - OmniAI OCR Benchmark. (n.d.). Retrieved from https://getomni.ai/ocr-benchmarkLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen