Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Überprüfung der Richtigkeit von Informationen, insbesondere numerischer Behauptungen, stellt eine bedeutende Herausforderung im Kontext der Informationsbeschaffung und -verarbeitung dar. Eine kürzlich erschienene Studie, „ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims“, befasst sich eingehend mit diesem Thema und untersucht verschiedene Ansätze zur Verbesserung der Genauigkeit und Zuverlässigkeit von großen Sprachmodellen (LLMs) bei der Verifikation numerischer Daten. Die Arbeit wurde im Rahmen des CLEF 2025 CheckThat! Lab durchgeführt und konzentriert sich auf die Aufgabe der Verifizierung von numerischen und zeitlichen Behauptungen anhand von abgerufenen Evidenzen.
Die Studie vergleicht zwei komplementäre Methoden: Zero-Shot Prompting und parametereffizientes Fine-Tuning. Beim Zero-Shot Prompting werden die LLMs direkt mit der Aufgabe der Verifikation konfrontiert, ohne vorherige spezifische Anpassung an den Datensatz. Im Gegensatz dazu wird beim Fine-Tuning das Modell durch gezieltes Training auf einem spezifischen Datensatz an die jeweilige Aufgabe angepasst. Hierbei kam die parametereffiziente LoRA-Methode (Low-Rank Adaptation) zum Einsatz, um den Ressourcenverbrauch zu minimieren.
Ein weiterer wichtiger Aspekt der Studie ist die Untersuchung verschiedener Strategien zur Evidenzselektion. Es wurden drei Ansätze verglichen: die Verwendung vollständiger Dokumente, die Auswahl der Top-k Sätze mithilfe des BM25-Algorithmus und die Verwendung von MiniLM zur Satzfilterung. Die Wahl der geeigneten Evidenzselektion erwies sich als entscheidend für die Performance der Modelle.
Die Ergebnisse zeigen, dass ein mit LoRA feinabgestimmtes LLaMA-Modell, das mit vollständigen Dokumenten als Evidenz trainiert wurde, eine starke Performance im englischen Validierungsdatensatz erreichte. Besonders hervorzuheben ist die Leistung bei der schwierigen Klasse „Conflicting“, die widersprüchliche Evidenzen beinhaltet. Jedoch zeigte sich im Testdatensatz ein deutlicher Leistungsabfall. Dieser Befund deutet auf Herausforderungen bei der Generalisierung der Modelle hin. Die Studie unterstreicht somit die Bedeutung von Evidenzgranularität und Modellanpassung für eine robuste numerische Faktenprüfung.
Die Studie wirft wichtige Fragen zur Generalisierung von Modellen und zur Qualität der Informationsbeschaffung auf. Die deutliche Diskrepanz zwischen den Ergebnissen im Validierungs- und Testdatensatz deutet darauf hin, dass die Modelle möglicherweise überangepasst sind und Schwierigkeiten haben, auf unbekannte Daten zu generalisieren. Zukünftige Forschung könnte sich auf die Verbesserung der Generalisierungsfähigkeit der Modelle und die Entwicklung robusterer Methoden zur Evidenzselektion konzentrieren. Die Behandlung von „Conflicting“ Evidenzen stellt dabei eine besondere Herausforderung dar, die einer genaueren Untersuchung bedarf.
Die Studie „ClaimIQ at CheckThat! 2025“ liefert wertvolle Erkenntnisse zum Thema Verifikation numerischer Behauptungen mit LLMs. Der Vergleich von Zero-Shot Prompting und Fine-Tuning, sowie die Untersuchung verschiedener Evidenzselektionstrategien, trägt zum Verständnis der Herausforderungen und Möglichkeiten bei der Entwicklung robuster und zuverlässiger Systeme bei. Die Ergebnisse unterstreichen die Notwendigkeit weiterer Forschung, um die Generalisierungsfähigkeit der Modelle zu verbessern und die Qualität der Informationsbeschaffung zu optimieren.
Bibliography - https://arxiv.org/abs/2509.11492 - https://huggingface.co/papers/2509.11492 - https://arxiv.org/pdf/2509.11492 - https://link.springer.com/10.1007/978-3-032-04354-2_13 - https://www.researchgate.net/publication/395356197_UNH_at_CheckThat_2025_Fine-tuning_Vs_Prompting_in_Claim_Extraction - https://www.researchgate.net/publication/395237224_Overview_of_the_CLEF-2025_CheckThat_Lab_Subjectivity_Fact-Checking_Claim_Normalization_and_Retrieval - https://huggingface.co/papers?ref=lorcandempsey.net - http://paperreading.club/page?id=337909 - https://www.themoonlight.io/en/review/unh-at-checkthat-2025-fine-tuning-vs-prompting-in-claim-extraction - https://aclanthology.org/2025.fever-1.5.pdfLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen