KI für Ihr Unternehmen – Jetzt Demo buchen

Neue Methode zur optischen Kontextkomprimierung von DeepSeek-OCR zur Effizienzsteigerung bei Sprachmodellen

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • DeepSeek-OCR führt eine neue Methode zur optischen Kontextkomprimierung ein, die lange Textinhalte in Bilder umwandelt, um die Effizienz von Sprachmodellen (LLMs) zu steigern.
    • Die Kernarchitektur besteht aus dem DeepEncoder (visueller Encoder) und einem DeepSeek-3B-MoE Decoder (Sprachmodell), die zusammenarbeiten, um visuelle Informationen zu verarbeiten und in Text zu rekonstruieren.
    • Das Modell erreicht eine hohe OCR-Präzision von etwa 97 % bei einer 10-fachen Komprimierung und demonstriert damit eine nahezu verlustfreie Datenreduktion.
    • DeepSeek-OCR ist nicht nur auf Textextraktion beschränkt, sondern kann auch Diagramme analysieren, chemische Formeln erkennen und mehrsprachige OCR für über 100 Sprachen durchführen.
    • Die Technologie bietet Potenzial für kostengünstigere LLM-Speicher, schnellere Inferenz und verbesserte Verarbeitung langer Dokumente, indem der Bedarf an Text-Tokens reduziert wird.

    Revolution in der Dokumentenverarbeitung: DeepSeek-OCR und die optische Kontextkomprimierung

    Die Verarbeitung langer und komplexer Dokumente stellt für große Sprachmodelle (LLMs) eine anhängige Herausforderung dar. Hohe Rechenkosten, lange Latenzzeiten und ein immenser Speicherbedarf sind typische Begleiterscheinungen, die mit der quadratischen Skalierung der Transformer-Aufmerksamkeit bei zunehmender Sequenzlänge einhergehen. Eine aktuelle Entwicklung, die in einem Paper von DeepSeek vorgestellt wurde, bietet hier einen vielversprechenden Ansatz: DeepSeek-OCR, ein Modell, das Text nicht ausschließlich als Token verarbeitet, sondern als visuelle Information komprimiert. Dieses Konzept, als „Contexts Optical Compression“ bezeichnet, könnte die Art und Weise, wie LLMs mit langen Kontexten umgehen, grundlegend verändern.

    Die Herausforderung langer Kontexte bei LLMs

    Große Sprachmodelle sind darauf ausgelegt, Text in Token umzuwandeln und diese zu verarbeiten. Je länger ein Dokument ist, desto mehr Token werden benötigt, was zu einem exponentiellen Anstieg des Rechenaufwands und des Speicherbedarfs führt. Diese Beschränkung, oft als „Long-Context Bottleneck“ bezeichnet, limitiert die praktische Anwendbarkeit von LLMs bei der Analyse umfangreicher Texte wie wissenschaftlicher Artikel, juristischer Dokumente oder komplexer Berichte.

    DeepSeek-OCR: Eine neue Perspektive auf Textverarbeitung

    Das Kernprinzip hinter DeepSeek-OCR ist die Idee, lange Textinhalte in Bilder umzuwandeln und diese Bilder dann als komprimierte visuelle Token anstelle von reinen Text-Tokens zu verarbeiten. Die Intuition dahinter ist, dass Bilder eine große Menge an Text bei gleichzeitig deutlich geringerer Token-Anzahl darstellen können. Während eine Textseite 2000–5000 Text-Tokens beanspruchen kann, benötigt dieselbe Seite als Bild möglicherweise nur 200–400 visuelle Token, was eine Komprimierung um den Faktor 10 ermöglicht.

    Architektur und Funktionsweise

    DeepSeek-OCR ist ein zweistufiges System, bestehend aus einem visuellen Encoder namens DeepEncoder und einem Decoder namens DeepSeek-3B-MoE.

    • DeepEncoder: Dieser Encoder ist für die visuelle Verarbeitung zuständig und integriert mehrere Komponenten: - SAM-base (Segment Anything Model): Mit etwa 80 Millionen Parametern dient es der lokalen Wahrnehmung und der detaillierten Analyse feiner Bildbereiche mittels Window Attention. - CLIP-large (Contrastive Language-Image Pre-training): Mit etwa 300 Millionen Parametern sorgt es für ein globales Verständnis von Layout und Kontext durch Dense Attention. - Zwischen diesen beiden Komponenten befindet sich ein 16-facher Faltungs-Kompressor, der die Anzahl der visuellen Token reduziert, bevor sie in den globalen Attention-Teil gelangen. Ein 1024x1024 Pixel großes Bild, das in 4096 Patches aufgeteilt wird, kann nach der Komprimierung auf nur 256 Token reduziert werden, wodurch der typische Aktivierungsspeicher-Explosion bei Vision Transformers vermieden wird.
    • DeepSeek-3B-MoE Decoder: Hierbei handelt es sich um ein kleines Mixture-of-Experts (MoE) Sprachmodell, bei dem pro Schritt 6 von 64 Experten aktiviert werden. Seine Aufgabe ist es, den vollständigen Text aus den komprimierten visuellen Token zu rekonstruieren. Das Modell wurde auf einer breiten Palette von Dokumentendaten trainiert, darunter Gleichungen, Diagramme, chemische Strukturen und mehrsprachige PDFs, was ihm eine hohe Vielseitigkeit verleiht.

    Der Prozess lässt sich vereinfacht so darstellen:

    Image (Dokumentenseite) → DeepEncoder → komprimierte visuelle Token → MoE Decoder → Text

    Multi-Resolution Design und Training

    Ein bemerkenswertes Merkmal von DeepSeek-OCR ist sein Multi-Resolution Design. Die Komprimierung ist nicht fixiert, sondern kann je nach gewünschtem Detailgrad dynamisch angepasst werden. Dies ermöglicht es dem Modell, die Komprimierung an Textdichte und Seitenlayout anzupassen. Die "Gundam"-Modi, die das Bild ähnlich wie InternVL2.0 kacheln, sind besonders nützlich für große oder komplexe Seiten.

    Das Training von DeepSeek-OCR erfolgte in zwei Hauptphasen:

    - Phase 1: Der DeepEncoder wurde isoliert unter Verwendung von Next-Token-Prediction auf Bild-Text-Paaren trainiert. - Phase 2: Das gesamte Encoder-Decoder-System wurde gemeinsam mit einer Mischung aus OCR-, Vision- und rein textbasierten Daten trainiert.

    Die Trainingsdaten umfassten 30 Millionen Seiten aus realen PDF-Dokumenten in über 100 Sprachen (OCR 1.0 Daten), synthetische, strukturierte Daten wie Diagramme und Formeln (OCR 2.0 Daten), sowie allgemeine Bild- und reine Textdaten zur Aufrechterhaltung der Bildverarbeitungs- und Sprachfähigkeiten.

    Leistungsbenchmarks

    Die Leistungsfähigkeit von DeepSeek-OCR wurde in verschiedenen Benchmarks evaluiert:

    • Fox Benchmark (Komprimierungstest): Bei einer 10-fachen Komprimierung der visuellen Token behält das Modell eine Präzision von etwa 97 %. Selbst bei einer 20-fachen Komprimierung liegt die Genauigkeit noch bei etwa 60 %, was angesichts der massiven Reduktion beachtlich ist.
    • OmniDocBench (Praktischer OCR-Test): Im realen Kontext der PDF- und strukturierten Dokumentenanalyse erreicht DeepSeek-OCR eine hohe OCR-Genauigkeit, die dem aktuellen Stand der Technik entspricht. Dabei nutzt es nur einen Bruchteil der Token. In bestimmten Konfigurationen kann es eine ganze Seite mit nur 100–200 visuellen Token verarbeiten, was weniger ist als kleinere OCR-Systeme für einen einzelnen Absatz benötigen.

    Kontext-Optische Komprimierung im Detail

    Das Konzept der Kontext-Optischen Komprimierung bedeutet, dass lange textuelle Kontexte nicht als Text-Embeddings, sondern als Bild-Embeddings kodiert werden. Die Bedeutung wird optisch als Muster von Formen und Texturen gespeichert. Der Encoder bildet dieses Bild dann in einen kompakten latenten Raum ab, der deutlich weniger Token erzeugt, als Text benötigen würde. Dies funktioniert, weil die Redundanz in der Sprache hoch ist und die visuelle Form einer Seite alle Abstände, Layouts und Wortformen effizienter kodiert als sequentielle Texte.

    Die optische Komprimierung ermöglicht:

    • Kodierung langer textueller Kontexte als Bild-Embeddings.
    • Speicherung oder Übertragung dieser komprimierten visuellen Darstellung.
    • Spätere Dekodierung zurück in Text bei Bedarf.

    Dies kann als ein verlustbehaftetes Komprimierungsschema für den LLM-Speicher unter Nutzung der visuellen Modalität verstanden werden. Ältere Kontexte könnten stärker komprimiert werden (kleiner, unschärfer), während neuere Kontexte klar bleiben. Das DeepSeek-Paper visualisiert dies als eine Art Gedächtnisverfallskurve, ähnlich dem menschlichen Vergessen von Details über die Zeit.

    Weitere Fähigkeiten und Bedeutung

    DeepSeek-OCR ist nicht auf die reine Textextraktion beschränkt. Es kann:

    • Diagramme in HTML-Tabellen parsen.
    • Chemische Formeln erkennen und als SMILES-Strings ausgeben.
    • Ebene Geometrie unter Verwendung strukturierter Dictionaries verstehen.
    • Mehrsprachige OCR für fast 100 Sprachen handhaben.
    • Allgemeine Bildverarbeitungsfähigkeiten wie Bildunterschriften und Objekterkennung beibehalten.

    Dank seiner Effizienz kann DeepSeek-OCR über 200.000 Seiten Trainingsdaten pro Tag auf einer einzigen A100-GPU generieren, was es auch zu einer leistungsstarken Engine zur Datengenerierung für das Vortraining von LLMs und VLMs macht.

    Dieser Ansatz hat weitreichende Auswirkungen für die Verarbeitung langer Kontexte. Anstatt die Aufmerksamkeitsfenster endlos zu erweitern, schlägt DeepSeek-OCR eine visuelle Komprimierung vor. Für LLM-Entwickler bedeutet dies:

    • Günstigerer Speicher: Visuelle Token sind kompakt.
    • Schnellere Inferenz: Weniger Token führen zu weniger FLOPs.
    • Natürliches Vergessen: Ältere Kontexte können heruntergesampelt werden.
    • Einfachere multimodale Fusion: Das Modell betrachtet Text bereits als Bild.

    Für OCR-Forscher stellt es ein neues State-of-the-Art-System dar, das schwerere Modelle wie MinerU 2.0 und GOT-OCR2.0 übertrifft, während es schneller läuft und weniger Speicher verbraucht.

    Fazit und Ausblick

    DeepSeek-OCR ist ein vielversprechender Schritt zur Lösung des "Long-Context Bottleneck" bei LLMs. Die Idee, Text als visuelle Information zu speichern und nahezu verlustfrei wiederherzustellen, eröffnet neue Wege für die Entwicklung effizienterer und leistungsfähigerer KI-Modelle. Es bleibt abzuwarten, wie sich diese Technologie in unabhängigen Tests bewähren und welche weiteren Innovationen sie in der Zukunft anstoßen wird. Es ist denkbar, dass LLMs in Zukunft ihr Langzeitgedächtnis nicht in Token, sondern in komprimierten, geschichteten und verblassenden Bildern speichern, ähnlich wie unsere eigenen Erinnerungen.

    Bibliographie

    • DeepSeek-OCR: Contexts Optical Compression. (2025). arXiv:2510.18234. Verfügbar unter: https://arxiv.org/abs/2510.18234
    • Gupta, M. (2025). DeepSeek OCR is here. Medium. Verfügbar unter: https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0
    • Wang, A. (2025). DeepSeek-OCR Release Explained (2025): Why It Could Disrupt... Skywork AI. Verfügbar unter: https://skywork.ai/blog/ai-agent/deepseek-ocr-release-explained-2025/
    • Chow, V. (2025). Will DeepSeek’s new AI model break the ‘long-context’ bottleneck holding back LLMs? South China Morning Post. Verfügbar unter: https://www.scmp.com/tech/tech-trends/article/3329940/will-deepseeks-new-ai-model-break-long-context-bottleneck-holding-back-llms
    • Rasheed, M. H., Omar, F. S., Tuama, A., & Safar, M. (2025). Image-Based Text Translation a Fine-Tuning Using DeepSeek-Coder and Transformer Models for Multilingual Optical Character Recognition Processing. Multidisciplinary Modeling in Engineering and Applied Sciences, 12(7), 2573-2586. Verfügbar unter: https://www.iieta.org/journals/mmep/paper/10.18280/mmep.120735

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen