Die optische Zeichenerkennung (OCR) für arabische Texte stellt aufgrund der komplexen Schrift, der verbundenen Buchstaben, der diakritischen Zeichen (Tashkeel) und der vielfältigen Typografie eine besondere Herausforderung dar. Ein vielversprechender Ansatz zur Bewältigung dieser Schwierigkeiten liegt in der Nutzung multimodaler großer Sprachmodelle (LLMs). QARI-OCR, eine Reihe von feinabgestimmten Vision-Language-Modellen, demonstriert eindrucksvoll das Potenzial dieses Ansatzes.
QARI-OCR basiert auf dem Qwen2-VL-2B-Instruct Modell und wurde durch iteratives Finetuning auf spezialisierten synthetischen Datensätzen für die arabische Sprache optimiert. Dieser iterative Prozess ermöglichte eine schrittweise Verbesserung der Erkennungsgenauigkeit und die Anpassung an die Besonderheiten der arabischen Schrift. Die Entwickler haben verschiedene Versionen des Modells trainiert, die sich in ihren Fähigkeiten und Anwendungsbereichen unterscheiden.
Die erste Version, QARI v0.1, konzentrierte sich auf saubere Texte in fünf verschiedenen Schriftarten ohne diakritische Zeichen. QARI v0.2 erweiterte den Fokus auf diakritische und klassische Texte mit zehn Schriftarten. Die neueste Version, QARI v0.3, wurde auf realistische Layouts, gemischte Schriftgrößen und sogar handgeschriebene Texte trainiert. Diese Entwicklung zeigt die kontinuierliche Verbesserung und Erweiterung der Fähigkeiten von QARI-OCR.
Die Ergebnisse von QARI-OCR, insbesondere der Version v0.2, sind bemerkenswert. Mit einer Wortfehlerrate (WER) von 0,160, einer Zeichenfehlerrate (CER) von 0,061 und einem BLEU-Score von 0,737 setzt QARI v0.2 einen neuen Standard für Open-Source-OCR-Systeme im Bereich der arabischen Sprache. Die Fähigkeit, diakritische Zeichen, verschiedene Schriftarten und Dokumentlayouts präzise zu verarbeiten, unterstreicht die Leistungsfähigkeit des Modells. Auch bei Bildern mit niedriger Auflösung liefert QARI-OCR überzeugende Ergebnisse.
Die Veröffentlichung von QARI-OCR als Open-Source-Modell, inklusive der verwendeten Datensätze, ist ein wichtiger Beitrag zur Forschungsgemeinschaft. Dies ermöglicht es anderen Forschern, auf den Ergebnissen aufzubauen, das Modell weiter zu entwickeln und neue Anwendungen zu erforschen. Die vielversprechenden Ergebnisse von QARI-OCR, insbesondere im Bereich der strukturellen Dokumentenanalyse und der Handschrifterkennung, eröffnen neue Möglichkeiten für die automatisierte Verarbeitung arabischer Texte.
Trotz der beeindruckenden Leistung gibt es auch Herausforderungen, die in zukünftigen Versionen von QARI-OCR angegangen werden könnten. Die Erkennung von Texten mit dichter Schreibweise oder schmalem Zeilenabstand, sowie die Erkennung von Abbildungen, Diagrammen und eingebetteten Zahlen, stellen weiterhin Verbesserungspotenzial dar. Auch die gelegentliche Auslassung von Randelementen wie Seitenzahlen könnte in zukünftigen Entwicklungen optimiert werden.
Die Entwicklungen im Bereich der arabischen OCR, wie QARI-OCR, sind auch für Unternehmen wie Mindverse von großer Bedeutung. Als Anbieter von KI-gestützten Content-Tools, Chatbots, Voicebots und KI-Suchmaschinen profitiert Mindverse von Fortschritten in der Sprachverarbeitung. Die Integration von leistungsstarken OCR-Systemen wie QARI-OCR in die Produktpalette von Mindverse könnte die automatisierte Verarbeitung arabischer Texte erheblich verbessern und neue Anwendungsmöglichkeiten eröffnen.
Bibliographie: https://arxiv.org/html/2506.02295v1 http://www.arxiv.org/pdf/2506.02295 https://paperreading.club/page?id=312848 https://www.linkedin.com/pulse/llm-based-arabic-ocr-models-training-architecture-hazem-abdelazim-zffzf https://aclanthology.org/2024.arabicnlp-1.19.pdf https://aclanthology.org/2024.osact-1.pdf https://huggingface.co/papers?q=Arabic%20text https://www.researchgate.net/publication/384208117_Qalam_A_Multimodal_LLM_for_Arabic_Optical_Character_and_Handwriting_Recognition https://huggingface.co/NAMAA-Space/Qari-OCR-0.1-VL-2B-Instruct https://paperreading.club/category?cate=OCR