Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Verarbeitung grosser Textmengen stellt für grosse Sprachmodelle (LLMs) eine anhaltende Herausforderung dar, insbesondere im Hinblick auf Rechenleistung und Speichereffizienz. Das chinesische KI-Unternehmen DeepSeek hat mit der Einführung von DeepSeek-OCR: Contexts Optical Compression einen neuartigen Ansatz vorgestellt, der darauf abzielt, diese Limitierungen durch die visuelle Kompression von Textkontexten zu überwinden.
Traditionell werden Dokumente für LLMs in Text-Tokens zerlegt, was bei langen Dokumenten zu einer exponentiell steigenden Anzahl von Tokens und damit zu hohen Rechenkosten und Latenzen führen kann. DeepSeek-OCR schlägt eine alternative Methode vor: Anstatt den gesamten Text direkt als Text-Tokens zu verarbeiten, wird er als Bild an das Modell übergeben. Dieser Ansatz, als "Context Optical Compression" bezeichnet, nutzt die visuelle Modalität als Kompressionsschicht für Text.
Die Kernidee dahinter ist, dass ein Bild eine grosse Menge an Text enthalten kann, während es mit deutlich weniger visuellen Tokens repräsentiert wird. Eine Textseite, die 2000–5000 Text-Tokens beanspruchen würde, kann als Bild möglicherweise nur 200–400 visuelle Tokens erfordern. Dies entspricht einer Kompressionsrate von etwa 10:1 bei nahezu verlustfreier Genauigkeit von 97%, selbst bei einer 10-fachen Kompression. Bei einer 20-fachen Kompression wird immer noch eine Genauigkeit von etwa 60% erreicht, was angesichts der massiven Reduzierung bemerkenswert ist.
DeepSeek-OCR ist ein zweistufiges System, das aus zwei Hauptkomponenten besteht:
Die Kompressionsrate ist nicht statisch. DeepSeek-OCR unterstützt verschiedene "Modi" und kann die Kompression dynamisch an die Textdichte und das Seitenlayout anpassen. Die sogenannten "Gundam"-Modi, ähnlich wie bei InternVL2.0, unterteilen das Bild in Kacheln und sind besonders nützlich für grosse oder komplexe Seiten.
Das Training von DeepSeek-OCR erfolgte in zwei Hauptphasen:
Die Trainingsdaten umfassten 30 Millionen PDF-Seiten in über 100 Sprachen (davon 25 Millionen in Chinesisch und Englisch), 10 Millionen synthetische Diagramme, 5 Millionen chemische Formeln und 1 Million geometrische Figuren. Zusätzlich wurden 20% allgemeine Visionsdaten und 10% rein textbasierte Daten verwendet, um die Bildverstehens- und Sprachfähigkeiten des Modells zu erhalten.
In Benchmarks wie dem Fox Benchmark für Kompressionstests und dem OmniDocBench für praktische OCR-Tests zeigte DeepSeek-OCR eine hohe Genauigkeit bei deutlich reduzierter Token-Nutzung. Es erreicht eine hohe OCR-Genauigkeit, die mit Heavy-Modellen wie MinerU 2.0 und GOT-OCR2.0 vergleichbar ist, benötigt aber nur einen Bruchteil der Tokens und des Speichers.
Über die reine Textextraktion hinaus bietet DeepSeek-OCR weitere Fähigkeiten:
Eine bemerkenswerte Anwendung des Systems ist seine Fähigkeit, über 200.000 Seiten Trainingsdaten pro Tag auf einer einzigen A100-GPU zu generieren. Bei einem Cluster von 20 Knoten mit je acht A100-GPUs steigt der Durchsatz auf etwa 33 Millionen Seiten pro Tag. Dies macht DeepSeek-OCR zu einer wertvollen Ressource für die Erstellung grosser Trainingsdatensätze für LLMs und VLMs.
Der Ansatz der optischen Kompression von Kontexten könnte eine Lösung für das Problem der langen Kontextlängen in LLMs bieten. Anstatt die Aufmerksamkeitsfenster immer weiter zu strecken, wird vorgeschlagen, den Kontext visuell zu komprimieren. Dies führt zu:
DeepSeek-OCR stellt somit nicht nur eine Weiterentwicklung im Bereich der optischen Zeichenerkennung dar, sondern auch einen vielversprechenden Weg zur Bewältigung der Herausforderungen bei der Verarbeitung langer Kontexte in der Künstlichen Intelligenz.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen