Regelbasiertes Denken ist ein grundlegendes Konzept in der Künstlichen Intelligenz (KI) und ermöglicht es Maschinen, logische Schlussfolgerungen aus gegebenen Regeln und Fakten zu ziehen. Die Anwendung dieses Prinzips in der Praxis gestaltet sich jedoch oft komplex, da Regeln in verschiedenen Formaten, Typen und Komplexitätsgraden auftreten können. Während große Sprachmodelle (LLMs) beachtliche Fähigkeiten im regelbasierten Denken gezeigt haben, insbesondere in Kombination mit Reinforcement Learning (RL), stellt sich die Frage, ob auch kleinere Modelle vergleichbare Leistungen erzielen können. Ein neuer Ansatz namens RuleReasoner zeigt, dass dies möglich ist und dabei sogar Vorteile in puncto Effizienz und Generalisierung bietet.
RuleReasoner ist eine Methode, die regelbasiertes Denken in kleineren Modellen durch dynamische Domänen-Stichproben verbessert. Der Ansatz basiert auf drei Kernkomponenten:
Regelzentrierte Datenkuratierung: Ein umfassender Datensatz, der acht verschiedene Aufgaben zum regelbasierten Denken abdeckt. Diese Aufgaben variieren in Format (explizit/implizit), Logiktyp (deduktiv/induktiv) und Tiefe der Schlussfolgerungsketten.
RLVR für regelbasiertes Denken: Die Modelle werden basierend auf der Gültigkeit der Regeln belohnt, nicht auf Imitation. Dies fördert die strukturelle Exploration und Generalisierung.
Dynamische Domänen-Stichproben: Die Trainingsbatches werden pro Domäne anhand historischer Belohnungssignale neu gewichtet. Dadurch passt sich das System in Echtzeit an den Schwierigkeitsgrad der Aufgabe und den Lernfortschritt an.
Die Evaluation von RuleReasoner zeigt beeindruckende Ergebnisse. Im Vergleich zu führenden LLMs wie OpenAI-o1, Claude 3.7 Sonnet und DeepSeek-R1 erzielt RuleReasoner, trainiert mit einem 8 Milliarden Parameter Modell, signifikant bessere Ergebnisse – sowohl bei In-Distribution- (ID) als auch Out-of-Distribution- (OOD) Benchmarks. Konkret erreicht RuleReasoner eine Verbesserung von durchschnittlich 4,1% bei ID-Aufgaben und 10,4% bei OOD-Aufgaben. Bemerkenswert ist auch die Leistung eines kleineren Modells mit nur 4 Milliarden Parametern, das eine Pass@1-Genauigkeit von 78,3% bei OOD-Aufgaben erreicht. Dies belegt, dass auch kleinere Modelle zu leistungsstarken und generalisierbaren Schlussfolgern trainiert werden können.
Neben der Leistungsfähigkeit besticht RuleReasoner auch durch seine Effizienz. Die dynamische Domänen-Stichprobenmethode führt zu einer schnelleren Konvergenz und einer höheren Belohnungsdichte im Vergleich zu traditionellen RLVR-Baselines. Dies bedeutet, dass RuleReasoner die Trainingsdaten effektiver nutzt und schneller lernt.
RuleReasoner präsentiert einen innovativen Ansatz für regelbasiertes Denken in KI-Modellen. Durch die Kombination von regelzentrierter Datenkuratierung, RLVR und dynamischer Domänen-Stichproben ermöglicht die Methode kleineren Modellen, die Leistung großer Sprachmodelle zu übertreffen und gleichzeitig effizienter zu arbeiten. Diese Ergebnisse eröffnen spannende Perspektiven für die Entwicklung zukünftiger KI-Systeme, die in der Lage sind, komplexe Schlussfolgerungen in verschiedensten Anwendungsbereichen zu ziehen.
Bibliographie: Liu, Y., Li, J., & Zheng, Z. (2025). RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling. arXiv preprint arXiv:2506.08672. MSc Thesis-final-digital.pdf (KIT) Deep Evidential Reasoning Rule Learning (ResearchGate) Logical Rule-Based Knowledge Graph Reasoning: A Comprehensive Survey (ResearchGate) 8893_FloareaSerbanThesis.pdf (UZH) complete-2024.pdf (Governatori) S0167739X20329927-main.pdf (imec-publications)