Verifikation numerischer Daten: Vergleich von Zero-Shot und Fine-Tuning bei Sprachmodellen

Kategorien:

No items found.

Freigegeben:

September 22, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Studie „ClaimIQ at CheckThat! 2025“ untersucht die Verifikation numerischer Behauptungen mithilfe von großen Sprachmodellen (LLMs).
Es werden zwei Ansätze verglichen: Zero-Shot Prompting und parametereffizientes Fine-Tuning (LoRA).
Fine-Tuning mit LLaMA und vollständigen Dokumenten als Evidenz erzielte gute Ergebnisse im Validierungsdatensatz, zeigte aber im Testdatensatz eine deutliche Leistungseinbuße.
Die Ergebnisse heben die Bedeutung von Evidenzgranularität und Modellanpassung für eine robuste numerische Faktenprüfung hervor.
Die Studie wirft Fragen zur Generalisierung von Modellen und zur Qualität der Informationsbeschaffung auf.

Verifikation numerischer Behauptungen: Ein Vergleich von Prompting und Fine-Tuning großer Sprachmodelle

Die Überprüfung der Richtigkeit von Informationen, insbesondere numerischer Behauptungen, stellt eine bedeutende Herausforderung im Kontext der Informationsbeschaffung und -verarbeitung dar. Eine kürzlich erschienene Studie, „ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims“, befasst sich eingehend mit diesem Thema und untersucht verschiedene Ansätze zur Verbesserung der Genauigkeit und Zuverlässigkeit von großen Sprachmodellen (LLMs) bei der Verifikation numerischer Daten. Die Arbeit wurde im Rahmen des CLEF 2025 CheckThat! Lab durchgeführt und konzentriert sich auf die Aufgabe der Verifizierung von numerischen und zeitlichen Behauptungen anhand von abgerufenen Evidenzen.

Zwei Ansätze im Vergleich: Zero-Shot Prompting und Fine-Tuning

Die Studie vergleicht zwei komplementäre Methoden: Zero-Shot Prompting und parametereffizientes Fine-Tuning. Beim Zero-Shot Prompting werden die LLMs direkt mit der Aufgabe der Verifikation konfrontiert, ohne vorherige spezifische Anpassung an den Datensatz. Im Gegensatz dazu wird beim Fine-Tuning das Modell durch gezieltes Training auf einem spezifischen Datensatz an die jeweilige Aufgabe angepasst. Hierbei kam die parametereffiziente LoRA-Methode (Low-Rank Adaptation) zum Einsatz, um den Ressourcenverbrauch zu minimieren.

Evidenzselektion: Ein wichtiger Faktor

Ein weiterer wichtiger Aspekt der Studie ist die Untersuchung verschiedener Strategien zur Evidenzselektion. Es wurden drei Ansätze verglichen: die Verwendung vollständiger Dokumente, die Auswahl der Top-k Sätze mithilfe des BM25-Algorithmus und die Verwendung von MiniLM zur Satzfilterung. Die Wahl der geeigneten Evidenzselektion erwies sich als entscheidend für die Performance der Modelle.

Ergebnisse und Herausforderungen

Die Ergebnisse zeigen, dass ein mit LoRA feinabgestimmtes LLaMA-Modell, das mit vollständigen Dokumenten als Evidenz trainiert wurde, eine starke Performance im englischen Validierungsdatensatz erreichte. Besonders hervorzuheben ist die Leistung bei der schwierigen Klasse „Conflicting“, die widersprüchliche Evidenzen beinhaltet. Jedoch zeigte sich im Testdatensatz ein deutlicher Leistungsabfall. Dieser Befund deutet auf Herausforderungen bei der Generalisierung der Modelle hin. Die Studie unterstreicht somit die Bedeutung von Evidenzgranularität und Modellanpassung für eine robuste numerische Faktenprüfung.

Ausblick: Offene Fragen und zukünftige Forschungsrichtungen

Die Studie wirft wichtige Fragen zur Generalisierung von Modellen und zur Qualität der Informationsbeschaffung auf. Die deutliche Diskrepanz zwischen den Ergebnissen im Validierungs- und Testdatensatz deutet darauf hin, dass die Modelle möglicherweise überangepasst sind und Schwierigkeiten haben, auf unbekannte Daten zu generalisieren. Zukünftige Forschung könnte sich auf die Verbesserung der Generalisierungsfähigkeit der Modelle und die Entwicklung robusterer Methoden zur Evidenzselektion konzentrieren. Die Behandlung von „Conflicting“ Evidenzen stellt dabei eine besondere Herausforderung dar, die einer genaueren Untersuchung bedarf.

Fazit

Die Studie „ClaimIQ at CheckThat! 2025“ liefert wertvolle Erkenntnisse zum Thema Verifikation numerischer Behauptungen mit LLMs. Der Vergleich von Zero-Shot Prompting und Fine-Tuning, sowie die Untersuchung verschiedener Evidenzselektionstrategien, trägt zum Verständnis der Herausforderungen und Möglichkeiten bei der Entwicklung robuster und zuverlässiger Systeme bei. Die Ergebnisse unterstreichen die Notwendigkeit weiterer Forschung, um die Generalisierungsfähigkeit der Modelle zu verbessern und die Qualität der Informationsbeschaffung zu optimieren.

Bibliography - https://arxiv.org/abs/2509.11492 - https://huggingface.co/papers/2509.11492 - https://arxiv.org/pdf/2509.11492 - https://link.springer.com/10.1007/978-3-032-04354-2_13 - https://www.researchgate.net/publication/395356197_UNH_at_CheckThat_2025_Fine-tuning_Vs_Prompting_in_Claim_Extraction - https://www.researchgate.net/publication/395237224_Overview_of_the_CLEF-2025_CheckThat_Lab_Subjectivity_Fact-Checking_Claim_Normalization_and_Retrieval - https://huggingface.co/papers?ref=lorcandempsey.net - http://paperreading.club/page?id=337909 - https://www.themoonlight.io/en/review/unh-at-checkthat-2025-fine-tuning-vs-prompting-in-claim-extraction - https://aclanthology.org/2025.fever-1.5.pdf