Fortschritt in der hebräischen Sprachverarbeitung durch neue offene Rangliste für Großsprachmodelle

Die Einführung einer offenen Rangliste für hebräische Großsprachmodelle (LLMs) markiert einen signifikanten Fortschritt im Bereich des Natural Language Processing (NLP). Bislang war die Forschung und Entwicklung von Sprachtechnologien für das Hebräische, eine sprachlich und morphologisch reiche Sprache, aufgrund fehlender spezialisierter Benchmarks für Großsprachmodelle limitiert. Die hebräische Sprache zeichnet sich durch ein komplexes System von Wurzeln und Mustern aus, das die Bildung von Wörtern durch Präfixe, Suffixe und Infixe ermöglicht, um Bedeutung, Zeitform oder Pluralformen zu modifizieren. Diese linguistische Komplexität führt zur Existenz multipler gültiger Wortformen, die von einem einzigen Wurzelwort abgeleitet sind und traditionelle Tokenisierungsstrategien ineffektiv machen. Die neu eingeführte offene Rangliste trägt diesem Umstand Rechnung und bietet robuste Bewertungsmetriken für sprachspezifische Aufgaben, wodurch eine Community-getriebene Verbesserung generativer Sprachmodelle im Hebräischen gefördert wird. Dies ist ein wichtiger Schritt, um die spezifischen Nuancen und linguistischen Eigenschaften der hebräischen Sprache in der Entwicklung von Sprachmodellen zu berücksichtigen. Die Rangliste wird gemeinsam von DDR&D IMOD / The Israeli National Program for NLP in Hebrew and Arabic und DICTA: The Israel Center for Text Analysis sowie Webiks gesponsert und untermauert das Engagement zur Förderung von Sprachtechnologien im Hebräischen. Die neue Rangliste besteht aus vier Schlüsseldatensätzen, die jeweils darauf ausgelegt sind, Sprachmodelle auf ihr Verständnis und ihre Generierung des Hebräischen zu testen, unabhängig von ihrer Leistung in anderen Sprachen. Diese Benchmarks verwenden ein Few-Shot-Prompt-Format, um die Modelle zu bewerten und sicherzustellen, dass sie sich auch mit begrenztem Kontext korrekt anpassen und reagieren können. Nachfolgend eine Zusammenfassung der einzelnen Benchmarks: Hebräische Fragebeantwortung: Diese Aufgabe bewertet die Fähigkeit eines Modells, Informationen, die auf Hebräisch präsentiert werden, zu verstehen und zu verarbeiten, wobei der Schwerpunkt auf Verständnis und der genauen Beantwortung von Fragen basierend auf dem Kontext liegt. Sentiment-Genauigkeit: Dieser Benchmark testet die Fähigkeit des Modells, Stimmungen in hebräischen Texten zu erkennen und zu interpretieren. Winograd-Schema-Herausforderung: Diese Aufgabe ist darauf ausgelegt, das Verständnis des Modells für Pronomenauflösung und kontextuelle Mehrdeutigkeit im Hebräischen zu messen. Übersetzung: Diese Aufgabe bewertet die Fähigkeit des Modells, zwischen Englisch und Hebräisch zu übersetzen und betont die sprachliche Genauigkeit und die Fähigkeit, Bedeutungen über Sprachen hinweg zu bewahren. Die technische Umsetzung der Rangliste basiert auf der offenen LLM-Rangliste und verwendet die Demo-Ranglistenvorlage. Modelle, die eingereicht werden, werden automatisch über HuggingFace's Inference Endpoints bereitgestellt und über API-Anfragen bewertet, die von der LightEval-Bibliothek verwaltet werden. Wir laden Forscher, Entwickler und Enthusiasten ein, an dieser Initiative teilzunehmen, sei es durch die Einreichung eigener Modelle zur Bewertung oder durch die Beteiligung an Diskussionen zur Verbesserung von hebräischen Sprachtechnologien. Die neue Rangliste ist nicht nur ein Benchmarking-Tool; sie soll die israelische Technologie-Community dazu ermutigen, die Lücken in der Forschung von Sprachtechnologien für das Hebräische zu erkennen und zu schließen. Indem detaillierte, spezifische Bewertungen bereitgestellt werden, zielen wir darauf ab, die Entwicklung von Modellen zu katalysieren, die nicht nur sprachlich vielfältig, sondern auch kulturell präzise sind und den Weg für Innovationen ebnen, die den Reichtum der hebräischen Sprache würdigen. Quellen: - Hugging Face: Introducing the Open Leaderboard for Hebrew LLMs! - Deloitte & Nasscom: Large Language Models (LLMs) – A Paradigm Shift in AI - arXiv: From Handcrafted Features to LLMs: A Brief Survey for Machine Translation Quality Estimation - LLM Guide: Schools in Israel - LAION: VISIT-BENCH, A NEW BENCHMARK FOR INSTRUCTION-FOLLOWING VISION-LANGUAGE MODELS - Phil Schmid: Amazon Titan Embeddings - OpenReview: ACL Rolling Review - October 2023 - Hacker News: Diskussionen über LLMs und ihre Fähigkeiten