Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung großer Sprachmodelle (Large Language Models, LLMs) hat die Möglichkeiten der Textgenerierung und -verarbeitung revolutioniert. Mit ihren beeindruckenden Fähigkeiten zur Erstellung kohärenter und kontextuell relevanter Inhalte sind LLMs zu einem unverzichtbaren Werkzeug in zahlreichen Anwendungsbereichen geworden. Gleichwohl stellt die Tendenz dieser Modelle, sogenannte „Halluzinationen“ zu erzeugen – also Informationen, die nicht durch den bereitgestellten Quelltext verifizierbar oder faktisch inkorrekt sind – eine erhebliche Herausforderung dar. Insbesondere in geschäftskritischen B2B-Anwendungen, wo Präzision und Verlässlichkeit von größter Bedeutung sind, ist die zuverlässige Erkennung und Minimierung solcher Fehler essenziell. Eine aktuelle Forschungsarbeit widmet sich dieser Problematik und untersucht die Anwendbarkeit von LLMs zur fein-granularen Erkennung kontextbezogener Halluzinationen.
Halluzinationen in LLMs lassen sich grob in zwei Kategorien unterteilen: intrinsische und extrinsische. Intrinsische Halluzinationen widersprechen direkt dem Quelltext, während extrinsische Halluzinationen Informationen enthalten, die im Quelltext nicht vorhanden und somit nicht verifizierbar sind, aber dennoch faktisch korrekt sein können. Die Erkennung dieser Fehler ist komplex, da sie oft subtil sind und sich nahtlos in den generierten Text einfügen. Bislangige Evaluationsmethoden waren häufig auf binäre Klassifikationen beschränkt, die lediglich feststellten, ob ein gesamter Output konsistent ist oder nicht. Dies vernachlässigte jedoch die Lokalisierung spezifischer Fehler, was für eine gezielte Korrektur und ein tieferes Verständnis der Modellfehler essentiell ist. Der Übergang zu einer fein-granularen Evaluation, die kleinere Einheiten wie Entitäten, Textspannen oder atomare Fakten analysiert, markierte einen wichtigen Fortschritt. Dennoch wiesen diese Ansätze weiterhin Limitationen auf, insbesondere hinsichtlich der Darstellbarkeit des gesamten Spektrums möglicher Fehler und der Komplexität der Evaluationspipelines.
Um die Anwendbarkeit von LLMs für die Lokalisierung kontextbezogener Halluzinationen umfassend zu untersuchen, wurde ein neuer Benchmark namens "FINAL" (Factual Inconsistencies Localization) entwickelt. Dieser Benchmark, der auf über 1.000 sorgfältig von Menschen annotierten Beispielen basiert, bietet eine maßgeschneiderte Grundlage für die Meta-Evaluation von LLMs. Ein zentraler Aspekt der Studie ist die Einführung einer neuen Fehlerdarstellung: Statt begrenzte Formate wie Entitäten oder QA-Paare zu verwenden, werden Halluzinationen als freie Textbeschreibungen in natürlicher Sprache erfasst. Dieser Ansatz ermöglicht es, die volle Bandbreite möglicher Fehler auszudrücken und die Flexibilität der LLMs optimal zu nutzen.
Die Erstellung des FINAL-Benchmarks umfasste einen zweistufigen Annotationsprozess:
Die Studie evaluierte vier große LLMs (Llama-3-405B, GPT-4o, Gemini-Pro und Claude-Sonnet) auf dem FINAL-Benchmark unter Verwendung verschiedener Prompting-Strategien, darunter Zero-Shot, Few-Shot und Chain-of-Thought (CoT). Die Ergebnisse zeigen, dass die Aufgabe selbst für leistungsstarke LLMs anspruchsvoll ist. Das beste Modell erreichte einen F1-Score von lediglich 0,67, was die Komplexität der fein-granularen Halluzinationserkennung unterstreicht.
Eine detaillierte Fehleranalyse identifizierte zwei Hauptfaktoren, die LLMs bei der Erkennung von Halluzinationen vor große Herausforderungen stellen:
Die Analyse der Fehlalarme zeigte zudem, dass LLMs häufig zu Fehlern neigen, wenn es um das Übersehen explizit im Text enthaltener Informationen oder um „verpasste Deduktionen“ geht – also Fakten, die direkt aus dem Text abgeleitet werden könnten. Überraschenderweise wurde auch die „Auslassung“ als häufiger Fehlalarm identifiziert, obwohl der Prompt die Modelle anwies, sich nicht auf Auslassungen zu konzentrieren, sondern nur auf Nicht-Verifizierbarkeit.
Für Unternehmen, die LLMs in ihren Content-Tools oder anderen B2B-Anwendungen einsetzen, sind diese Erkenntnisse von erheblicher Bedeutung. Die Fähigkeit zur präzisen Erkennung und Lokalisierung von Halluzinationen ist entscheidend für die Qualitätssicherung und das Vertrauen in KI-generierte Inhalte. Die Studie zeigt, dass trotz der fortschrittlichen Fähigkeiten moderner LLMs weiterhin erhebliche Herausforderungen bestehen, insbesondere bei der Unterscheidung zwischen fehlenden, aber unkritischen Details und tatsächlich inkonsistenten Informationen.
Die Einführung einer flexiblen, textbasierten Fehlerdarstellung im FINAL-Benchmark bietet einen vielversprechenden Weg, um die Evaluationsverfahren zu verbessern und LLMs effektiver für diese Aufgabe zu trainieren. Für Anbieter von KI-Lösungen wie Mindverse ist es von Bedeutung, dass die Forschung die Notwendigkeit robuster Benchmarks und spezialisierter Trainingsansätze unterstreicht, um die Zuverlässigkeit von LLMs in praktischen Anwendungen zu gewährleisten. Die Untersuchung der optimalen Prompting-Strategien und die Identifizierung spezifischer Fehlerquellen liefern wertvolle Ansatzpunkte für die Weiterentwicklung und Feinabstimmung von KI-Modellen.
Die vorliegende Forschung stellt einen wichtigen Schritt dar, um bestehende, komplexe Evaluationssysteme für die fein-granulare Faktenkonsistenz durch LLMs zu ersetzen. Der eingeführte FINAL-Benchmark und die detaillierte Analyse der Stärken und Schwächen von vier leistungsstarken LLMs bieten eine fundierte Grundlage für zukünftige Entwicklungen. Die Erkenntnisse, insbesondere hinsichtlich der Schwierigkeiten bei der Unterscheidung zwischen fehlenden und extrinsisch korrekten Informationen, sind entscheidend für die Verbesserung der Halluzinationserkennung. Es wird erwartet, dass dieser Benchmark und die gewonnenen Einblicke eine Verlagerung hin zur LLM-basierten Evaluation fördern werden, was eine breitere Akzeptanz der fein-granularen Konsistenzevaluation in realen Anwendungen unterstützen kann. Die kontinuierliche Forschung in diesem Bereich ist unerlässlich, um die Verlässlichkeit und Vertrauenswürdigkeit von KI-generierten Inhalten weiter zu steigern und somit den Nutzen für B2B-Kunden zu maximieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen