KI für Ihr Unternehmen – Jetzt Demo buchen

Verifikation numerischer Daten: Vergleich von Zero-Shot und Fine-Tuning bei Sprachmodellen

Kategorien:
No items found.
Freigegeben:
September 22, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Die Studie „ClaimIQ at CheckThat! 2025“ untersucht die Verifikation numerischer Behauptungen mithilfe von großen Sprachmodellen (LLMs).
    • Es werden zwei Ansätze verglichen: Zero-Shot Prompting und parametereffizientes Fine-Tuning (LoRA).
    • Fine-Tuning mit LLaMA und vollständigen Dokumenten als Evidenz erzielte gute Ergebnisse im Validierungsdatensatz, zeigte aber im Testdatensatz eine deutliche Leistungseinbuße.
    • Die Ergebnisse heben die Bedeutung von Evidenzgranularität und Modellanpassung für eine robuste numerische Faktenprüfung hervor.
    • Die Studie wirft Fragen zur Generalisierung von Modellen und zur Qualität der Informationsbeschaffung auf.

    Verifikation numerischer Behauptungen: Ein Vergleich von Prompting und Fine-Tuning großer Sprachmodelle

    Die Überprüfung der Richtigkeit von Informationen, insbesondere numerischer Behauptungen, stellt eine bedeutende Herausforderung im Kontext der Informationsbeschaffung und -verarbeitung dar. Eine kürzlich erschienene Studie, „ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims“, befasst sich eingehend mit diesem Thema und untersucht verschiedene Ansätze zur Verbesserung der Genauigkeit und Zuverlässigkeit von großen Sprachmodellen (LLMs) bei der Verifikation numerischer Daten. Die Arbeit wurde im Rahmen des CLEF 2025 CheckThat! Lab durchgeführt und konzentriert sich auf die Aufgabe der Verifizierung von numerischen und zeitlichen Behauptungen anhand von abgerufenen Evidenzen.

    Zwei Ansätze im Vergleich: Zero-Shot Prompting und Fine-Tuning

    Die Studie vergleicht zwei komplementäre Methoden: Zero-Shot Prompting und parametereffizientes Fine-Tuning. Beim Zero-Shot Prompting werden die LLMs direkt mit der Aufgabe der Verifikation konfrontiert, ohne vorherige spezifische Anpassung an den Datensatz. Im Gegensatz dazu wird beim Fine-Tuning das Modell durch gezieltes Training auf einem spezifischen Datensatz an die jeweilige Aufgabe angepasst. Hierbei kam die parametereffiziente LoRA-Methode (Low-Rank Adaptation) zum Einsatz, um den Ressourcenverbrauch zu minimieren.

    Evidenzselektion: Ein wichtiger Faktor

    Ein weiterer wichtiger Aspekt der Studie ist die Untersuchung verschiedener Strategien zur Evidenzselektion. Es wurden drei Ansätze verglichen: die Verwendung vollständiger Dokumente, die Auswahl der Top-k Sätze mithilfe des BM25-Algorithmus und die Verwendung von MiniLM zur Satzfilterung. Die Wahl der geeigneten Evidenzselektion erwies sich als entscheidend für die Performance der Modelle.

    Ergebnisse und Herausforderungen

    Die Ergebnisse zeigen, dass ein mit LoRA feinabgestimmtes LLaMA-Modell, das mit vollständigen Dokumenten als Evidenz trainiert wurde, eine starke Performance im englischen Validierungsdatensatz erreichte. Besonders hervorzuheben ist die Leistung bei der schwierigen Klasse „Conflicting“, die widersprüchliche Evidenzen beinhaltet. Jedoch zeigte sich im Testdatensatz ein deutlicher Leistungsabfall. Dieser Befund deutet auf Herausforderungen bei der Generalisierung der Modelle hin. Die Studie unterstreicht somit die Bedeutung von Evidenzgranularität und Modellanpassung für eine robuste numerische Faktenprüfung.

    Ausblick: Offene Fragen und zukünftige Forschungsrichtungen

    Die Studie wirft wichtige Fragen zur Generalisierung von Modellen und zur Qualität der Informationsbeschaffung auf. Die deutliche Diskrepanz zwischen den Ergebnissen im Validierungs- und Testdatensatz deutet darauf hin, dass die Modelle möglicherweise überangepasst sind und Schwierigkeiten haben, auf unbekannte Daten zu generalisieren. Zukünftige Forschung könnte sich auf die Verbesserung der Generalisierungsfähigkeit der Modelle und die Entwicklung robusterer Methoden zur Evidenzselektion konzentrieren. Die Behandlung von „Conflicting“ Evidenzen stellt dabei eine besondere Herausforderung dar, die einer genaueren Untersuchung bedarf.

    Fazit

    Die Studie „ClaimIQ at CheckThat! 2025“ liefert wertvolle Erkenntnisse zum Thema Verifikation numerischer Behauptungen mit LLMs. Der Vergleich von Zero-Shot Prompting und Fine-Tuning, sowie die Untersuchung verschiedener Evidenzselektionstrategien, trägt zum Verständnis der Herausforderungen und Möglichkeiten bei der Entwicklung robuster und zuverlässiger Systeme bei. Die Ergebnisse unterstreichen die Notwendigkeit weiterer Forschung, um die Generalisierungsfähigkeit der Modelle zu verbessern und die Qualität der Informationsbeschaffung zu optimieren.

    Bibliography - https://arxiv.org/abs/2509.11492 - https://huggingface.co/papers/2509.11492 - https://arxiv.org/pdf/2509.11492 - https://link.springer.com/10.1007/978-3-032-04354-2_13 - https://www.researchgate.net/publication/395356197_UNH_at_CheckThat_2025_Fine-tuning_Vs_Prompting_in_Claim_Extraction - https://www.researchgate.net/publication/395237224_Overview_of_the_CLEF-2025_CheckThat_Lab_Subjectivity_Fact-Checking_Claim_Normalization_and_Retrieval - https://huggingface.co/papers?ref=lorcandempsey.net - http://paperreading.club/page?id=337909 - https://www.themoonlight.io/en/review/unh-at-checkthat-2025-fine-tuning-vs-prompting-in-claim-extraction - https://aclanthology.org/2025.fever-1.5.pdf

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen