KI für Ihr Unternehmen – Jetzt Demo buchen

DeepSeek-OCR: Neue Methode zur optischen Textkompression für KI-Modelle

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • DeepSeek-OCR ist ein Open-Source-Modell von DeepSeek-AI, das eine neue Methode zur Komprimierung von langen Textkontexten mittels visueller Wahrnehmung einführt.
    • Das Modell ermöglicht eine erhebliche Reduzierung der Token-Anzahl (bis zu 10x Kompression bei 97% Genauigkeit) für grosse Sprachmodelle (LLMs), wodurch Rechenkosten gesenkt und die Effizienz gesteigert werden.
    • DeepSeek-OCR besteht aus einem DeepEncoder für die Bildverarbeitung und einem DeepSeek-3B-MoE-Decoder für die Texterzeugung.
    • Es unterstützt eine Vielzahl von Dokumenttypen, darunter Diagramme, chemische Formeln und geometrische Figuren, in etwa 100 Sprachen.
    • Das System kann über 200.000 Seiten pro Tag auf einer einzigen A100-40G GPU verarbeiten und dient somit auch als effiziente Datenquelle für das Training anderer KI-Modelle.

    DeepSeek-OCR: Optische Kompression von Kontexten für effizientere KI-Modelle

    Die Verarbeitung grosser Textmengen stellt für grosse Sprachmodelle (LLMs) eine anhaltende Herausforderung dar, insbesondere im Hinblick auf Rechenleistung und Speichereffizienz. Das chinesische KI-Unternehmen DeepSeek hat mit der Einführung von DeepSeek-OCR: Contexts Optical Compression einen neuartigen Ansatz vorgestellt, der darauf abzielt, diese Limitierungen durch die visuelle Kompression von Textkontexten zu überwinden.

    Ein Paradigmenwechsel in der Textverarbeitung

    Traditionell werden Dokumente für LLMs in Text-Tokens zerlegt, was bei langen Dokumenten zu einer exponentiell steigenden Anzahl von Tokens und damit zu hohen Rechenkosten und Latenzen führen kann. DeepSeek-OCR schlägt eine alternative Methode vor: Anstatt den gesamten Text direkt als Text-Tokens zu verarbeiten, wird er als Bild an das Modell übergeben. Dieser Ansatz, als "Context Optical Compression" bezeichnet, nutzt die visuelle Modalität als Kompressionsschicht für Text.

    Die Kernidee dahinter ist, dass ein Bild eine grosse Menge an Text enthalten kann, während es mit deutlich weniger visuellen Tokens repräsentiert wird. Eine Textseite, die 2000–5000 Text-Tokens beanspruchen würde, kann als Bild möglicherweise nur 200–400 visuelle Tokens erfordern. Dies entspricht einer Kompressionsrate von etwa 10:1 bei nahezu verlustfreier Genauigkeit von 97%, selbst bei einer 10-fachen Kompression. Bei einer 20-fachen Kompression wird immer noch eine Genauigkeit von etwa 60% erreicht, was angesichts der massiven Reduzierung bemerkenswert ist.

    Architektur und Funktionsweise

    DeepSeek-OCR ist ein zweistufiges System, das aus zwei Hauptkomponenten besteht:

    • DeepEncoder (ca. 380 Mio. Parameter): Dieser visuelle Encoder ist für die Bildverarbeitung zuständig. Er integriert Elemente von: - SAM-base (80 Mio. Parameter): Für die lokale Wahrnehmung mittels Fenster-Attention, um feinkörnige Bildbereiche zu scannen. - CLIP-large (300 Mio. Parameter): Für das globale Verständnis mittels dichter Attention, um breitere Layouts und Kontexte zu erfassen. - Zwischen diesen beiden Komponenten befindet sich ein 16x konvolutioneller Kompressor, der die Anzahl der visuellen Tokens reduziert, bevor sie in den globalen Attention-Teil eingespeist werden. Beispielsweise wird ein 1024x1024 Pixel grosses Bild, das in 4096 Patches unterteilt wird, nach der Kompression auf nur 256 Tokens reduziert. Dies vermeidet die typische Explosion des Aktivierungsspeichers bei Vision Transformers.
    • DeepSeek-3B-MoE Decoder (ca. 570 Mio. aktive Parameter): Dieser Decoder ist ein kleines Mixture-of-Experts (MoE) Sprachmodell, bei dem sechs von 64 Experten pro Schritt aktiviert werden. Er rekonstruiert den Text aus den komprimierten visuellen Tokens. Es handelt sich also um einen Vision-to-Text-Transformer, der auf einer breiten Palette von Dokumentendaten trainiert wurde, einschliesslich Gleichungen, Diagrammen, chemischen Strukturen und mehrsprachigen PDFs.

    Multiresolutionsdesign und Trainingsansatz

    Die Kompressionsrate ist nicht statisch. DeepSeek-OCR unterstützt verschiedene "Modi" und kann die Kompression dynamisch an die Textdichte und das Seitenlayout anpassen. Die sogenannten "Gundam"-Modi, ähnlich wie bei InternVL2.0, unterteilen das Bild in Kacheln und sind besonders nützlich für grosse oder komplexe Seiten.

    Das Training von DeepSeek-OCR erfolgte in zwei Hauptphasen:

    1. Unabhängiges Training des DeepEncoders mittels "Next-Token Prediction" auf Bild-Text-Paaren.
    2. Gemeinsames Training des gesamten Encoder-Decoder-Systems mit einer Mischung aus OCR-, Vision- und rein textbasierten Daten.

    Die Trainingsdaten umfassten 30 Millionen PDF-Seiten in über 100 Sprachen (davon 25 Millionen in Chinesisch und Englisch), 10 Millionen synthetische Diagramme, 5 Millionen chemische Formeln und 1 Million geometrische Figuren. Zusätzlich wurden 20% allgemeine Visionsdaten und 10% rein textbasierte Daten verwendet, um die Bildverstehens- und Sprachfähigkeiten des Modells zu erhalten.

    Leistungsbenchmarks und Anwendungen

    In Benchmarks wie dem Fox Benchmark für Kompressionstests und dem OmniDocBench für praktische OCR-Tests zeigte DeepSeek-OCR eine hohe Genauigkeit bei deutlich reduzierter Token-Nutzung. Es erreicht eine hohe OCR-Genauigkeit, die mit Heavy-Modellen wie MinerU 2.0 und GOT-OCR2.0 vergleichbar ist, benötigt aber nur einen Bruchteil der Tokens und des Speichers.

    Über die reine Textextraktion hinaus bietet DeepSeek-OCR weitere Fähigkeiten:

    • Parsen von Diagrammen in HTML-Tabellen.
    • Erkennung chemischer Formeln und Ausgabe von SMILES-Strings.
    • Verständnis von ebener Geometrie mittels strukturierter Wörterbücher.
    • Multilinguale OCR für nahezu 100 Sprachen.
    • Beibehaltung allgemeiner Vision-Fähigkeiten wie Bildunterschrift und Objekterkennung.

    Eine bemerkenswerte Anwendung des Systems ist seine Fähigkeit, über 200.000 Seiten Trainingsdaten pro Tag auf einer einzigen A100-GPU zu generieren. Bei einem Cluster von 20 Knoten mit je acht A100-GPUs steigt der Durchsatz auf etwa 33 Millionen Seiten pro Tag. Dies macht DeepSeek-OCR zu einer wertvollen Ressource für die Erstellung grosser Trainingsdatensätze für LLMs und VLMs.

    Bedeutung für die Zukunft von LLMs

    Der Ansatz der optischen Kompression von Kontexten könnte eine Lösung für das Problem der langen Kontextlängen in LLMs bieten. Anstatt die Aufmerksamkeitsfenster immer weiter zu strecken, wird vorgeschlagen, den Kontext visuell zu komprimieren. Dies führt zu:

    • Geringeren Speicherkosten: Visuelle Tokens sind kompakter.
    • Schnellerer Inferenz: Weniger Tokens bedeuten weniger Rechenoperationen.
    • Natürlichem Vergessen: Älterer Kontext kann mit geringerer Auflösung gespeichert werden, ähnlich wie sich menschliche Erinnerungen im Laufe der Zeit verblassen.
    • Einfacherer multimodaler Fusion: Das Modell verarbeitet Text bereits als Bild.

    DeepSeek-OCR stellt somit nicht nur eine Weiterentwicklung im Bereich der optischen Zeichenerkennung dar, sondern auch einen vielversprechenden Weg zur Bewältigung der Herausforderungen bei der Verarbeitung langer Kontexte in der Künstlichen Intelligenz.

    Bibliography

    - deepseek-ai/DeepSeek-OCR - Hugging Face. (2025, October 17). Hugging Face. Retrieved from https://huggingface.co/deepseek-ai/DeepSeek-OCR - Gupta, M. (2025, October 21). DeepSeek OCR is here. Medium. Retrieved from https://medium.com/data-science-in-your-pocket/deepseek-ocr-is-here-37096b562bb0 - Hacker News. (2025, October 20). DeepSeek OCR. Retrieved from https://news.ycombinator.com/item?id=45640594 - TechNode Feed. (2025, October 21). DeepSeek releases new OCR model capable of ... TechNode. Retrieved from https://technode.com/2025/10/21/deepseek-releases-new-ocr-model-capable-of-generating-200000-pages-daily-on-a-single-gpu/ - DeepSeek unveils AI model that uses visual perception to compress ... (2025, October 21). SCMP. Retrieved from https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input - Kemper, J. (2025, October 20). Deepseek's OCR system compresses image-based text so AI can handle much longer documents. The Decoder. Retrieved from https://the-decoder.com/deepseeks-ocr-system-compresses-image-based-text-so-ai-can-handle-much-longer-documents/ - arXiv reCAPTCHA. (2022, February 15). arXiv. Retrieved from https://arxiv.org/html/2403.05525v1 - arXiv reCAPTCHA. (2022, February 15). arXiv. Retrieved from https://arxiv.org/html/2412.10302v1

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen