Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Verarbeitung langer und komplexer Dokumente stellt für große Sprachmodelle (LLMs) eine anhängige Herausforderung dar. Hohe Rechenkosten, lange Latenzzeiten und ein immenser Speicherbedarf sind typische Begleiterscheinungen, die mit der quadratischen Skalierung der Transformer-Aufmerksamkeit bei zunehmender Sequenzlänge einhergehen. Eine aktuelle Entwicklung, die in einem Paper von DeepSeek vorgestellt wurde, bietet hier einen vielversprechenden Ansatz: DeepSeek-OCR, ein Modell, das Text nicht ausschließlich als Token verarbeitet, sondern als visuelle Information komprimiert. Dieses Konzept, als „Contexts Optical Compression“ bezeichnet, könnte die Art und Weise, wie LLMs mit langen Kontexten umgehen, grundlegend verändern.
Große Sprachmodelle sind darauf ausgelegt, Text in Token umzuwandeln und diese zu verarbeiten. Je länger ein Dokument ist, desto mehr Token werden benötigt, was zu einem exponentiellen Anstieg des Rechenaufwands und des Speicherbedarfs führt. Diese Beschränkung, oft als „Long-Context Bottleneck“ bezeichnet, limitiert die praktische Anwendbarkeit von LLMs bei der Analyse umfangreicher Texte wie wissenschaftlicher Artikel, juristischer Dokumente oder komplexer Berichte.
Das Kernprinzip hinter DeepSeek-OCR ist die Idee, lange Textinhalte in Bilder umzuwandeln und diese Bilder dann als komprimierte visuelle Token anstelle von reinen Text-Tokens zu verarbeiten. Die Intuition dahinter ist, dass Bilder eine große Menge an Text bei gleichzeitig deutlich geringerer Token-Anzahl darstellen können. Während eine Textseite 2000–5000 Text-Tokens beanspruchen kann, benötigt dieselbe Seite als Bild möglicherweise nur 200–400 visuelle Token, was eine Komprimierung um den Faktor 10 ermöglicht.
DeepSeek-OCR ist ein zweistufiges System, bestehend aus einem visuellen Encoder namens DeepEncoder und einem Decoder namens DeepSeek-3B-MoE.
Der Prozess lässt sich vereinfacht so darstellen:
Image (Dokumentenseite) → DeepEncoder → komprimierte visuelle Token → MoE Decoder → Text
Ein bemerkenswertes Merkmal von DeepSeek-OCR ist sein Multi-Resolution Design. Die Komprimierung ist nicht fixiert, sondern kann je nach gewünschtem Detailgrad dynamisch angepasst werden. Dies ermöglicht es dem Modell, die Komprimierung an Textdichte und Seitenlayout anzupassen. Die "Gundam"-Modi, die das Bild ähnlich wie InternVL2.0 kacheln, sind besonders nützlich für große oder komplexe Seiten.
Das Training von DeepSeek-OCR erfolgte in zwei Hauptphasen:
- Phase 1: Der DeepEncoder wurde isoliert unter Verwendung von Next-Token-Prediction auf Bild-Text-Paaren trainiert. - Phase 2: Das gesamte Encoder-Decoder-System wurde gemeinsam mit einer Mischung aus OCR-, Vision- und rein textbasierten Daten trainiert.
Die Trainingsdaten umfassten 30 Millionen Seiten aus realen PDF-Dokumenten in über 100 Sprachen (OCR 1.0 Daten), synthetische, strukturierte Daten wie Diagramme und Formeln (OCR 2.0 Daten), sowie allgemeine Bild- und reine Textdaten zur Aufrechterhaltung der Bildverarbeitungs- und Sprachfähigkeiten.
Die Leistungsfähigkeit von DeepSeek-OCR wurde in verschiedenen Benchmarks evaluiert:
Das Konzept der Kontext-Optischen Komprimierung bedeutet, dass lange textuelle Kontexte nicht als Text-Embeddings, sondern als Bild-Embeddings kodiert werden. Die Bedeutung wird optisch als Muster von Formen und Texturen gespeichert. Der Encoder bildet dieses Bild dann in einen kompakten latenten Raum ab, der deutlich weniger Token erzeugt, als Text benötigen würde. Dies funktioniert, weil die Redundanz in der Sprache hoch ist und die visuelle Form einer Seite alle Abstände, Layouts und Wortformen effizienter kodiert als sequentielle Texte.
Die optische Komprimierung ermöglicht:
Dies kann als ein verlustbehaftetes Komprimierungsschema für den LLM-Speicher unter Nutzung der visuellen Modalität verstanden werden. Ältere Kontexte könnten stärker komprimiert werden (kleiner, unschärfer), während neuere Kontexte klar bleiben. Das DeepSeek-Paper visualisiert dies als eine Art Gedächtnisverfallskurve, ähnlich dem menschlichen Vergessen von Details über die Zeit.
DeepSeek-OCR ist nicht auf die reine Textextraktion beschränkt. Es kann:
Dank seiner Effizienz kann DeepSeek-OCR über 200.000 Seiten Trainingsdaten pro Tag auf einer einzigen A100-GPU generieren, was es auch zu einer leistungsstarken Engine zur Datengenerierung für das Vortraining von LLMs und VLMs macht.
Dieser Ansatz hat weitreichende Auswirkungen für die Verarbeitung langer Kontexte. Anstatt die Aufmerksamkeitsfenster endlos zu erweitern, schlägt DeepSeek-OCR eine visuelle Komprimierung vor. Für LLM-Entwickler bedeutet dies:
Für OCR-Forscher stellt es ein neues State-of-the-Art-System dar, das schwerere Modelle wie MinerU 2.0 und GOT-OCR2.0 übertrifft, während es schneller läuft und weniger Speicher verbraucht.
DeepSeek-OCR ist ein vielversprechender Schritt zur Lösung des "Long-Context Bottleneck" bei LLMs. Die Idee, Text als visuelle Information zu speichern und nahezu verlustfrei wiederherzustellen, eröffnet neue Wege für die Entwicklung effizienterer und leistungsfähigerer KI-Modelle. Es bleibt abzuwarten, wie sich diese Technologie in unabhängigen Tests bewähren und welche weiteren Innovationen sie in der Zukunft anstoßen wird. Es ist denkbar, dass LLMs in Zukunft ihr Langzeitgedächtnis nicht in Token, sondern in komprimierten, geschichteten und verblassenden Bildern speichern, ähnlich wie unsere eigenen Erinnerungen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen