Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der großen Sprachmodelle (LLMs), hat beeindruckende Fortschritte in der Generierung menschenähnlicher Texte ermöglicht. Gleichzeitig birgt diese Technologie jedoch eine signifikante Herausforderung: die sogenannte "Halluzination". Halluzinationen treten auf, wenn LLMs Inhalte generieren, die plausibel klingen, aber faktisch inkorrekt sind oder nicht durch die bereitgestellten Quellen gestützt werden. Dieses Phänomen untergräbt das Vertrauen der Nutzer und erschwert die breite Akzeptanz generativer KI-Systeme im B2B-Bereich. Um dieser Problematik entgegenzuwirken, wurde ein neues und umfassendes Benchmark namens HalluHard entwickelt. Dieses zielt darauf ab, die Halluzinationsneigung von LLMs in komplexen, mehrstufigen Interaktionen präzise zu messen und zu bewerten.
Bisherige Benchmarks zur Bewertung von LLM-Halluzinationen zeigten oft Limitierungen. Sie waren häufig auf einfache, einstufige Szenarien (Single-Turn) beschränkt und besaßen eine begrenzte Fähigkeit zur rigorosen Faktencheck-Evaluierung. Diese Ansätze reichten nicht aus, um die komplexen Verhaltensweisen moderner LLMs in realitätsnahen Dialogen abzubilden. Die Notwendigkeit eines Benchmarks, das Multi-Turn-Szenarien adäquat bewerten und eine tiefgehende Verifizierung von Quellenmaterial ermöglichen kann, wurde daher immer deutlicher.
HalluHard wurde konzipiert, um diese Lücken zu schließen. Es handelt sich um ein anspruchsvolles Multi-Turn-Halluzinations-Benchmark, das 950 Ausgangsfragen in vier unterschiedlichen und anspruchsvollen Domänen umfasst:
Ein wesentliches Merkmal von HalluHard ist seine Fähigkeit, offene Antworten zu bewerten und dabei zu verlangen, dass faktische Behauptungen in zitierten Quellen verankert sind. Dies stellt sicher, dass sich das Benchmark spezifisch auf Halluzinationen (unbegründete faktische Fehler) konzentriert und nicht auf andere Aspekte der Antwortqualität.
Der Bewertungsprozess von HalluHard ist mehrstufig und detailliert:
Ein Beispiel für eine halluzinierte Behauptung könnte sein, wenn ein Modell eine Quelle korrekt zitiert, der Inhalt der Behauptung jedoch teilweise erfunden ist und nicht der zitierten Quelle entspricht. Ein solcher Fall wird als Halluzination eingestuft.
Die Anwendung von HalluHard hat mehrere zentrale Erkenntnisse über das Halluzinationsverhalten von LLMs geliefert:
Im Kontext von LLMs ist es entscheidend, zwischen Halluzination und Faktizität zu unterscheiden. Während Faktizität die absolute Korrektheit des generierten Inhalts im Hinblick auf etablierte Verifizierungsquellen betrifft, definiert sich Halluzination durch die Inkonsistenz des Modellausgangs mit den Trainingsdaten oder dem Eingabekontext. HalluHard konzentriert sich auf extrinsische Halluzinationen, bei denen der generierte Inhalt nicht mit den Trainingsdaten des Modells übereinstimmt und weder durch den Eingabekontext gestützt noch widerlegt werden kann.
Ein verwandtes Benchmark, HalluLens, befasst sich ebenfalls mit dieser Unterscheidung und führt eine klare Taxonomie von Halluzinationen ein. Es unterscheidet zwischen:
HalluLens hebt hervor, dass bestehende Benchmarks oft nicht ausreichend zwischen diesen Typen unterscheiden und statische Testsets anfällig für Datenlecks sind. Daher schlägt HalluLens dynamische Testset-Generierung vor, um Robustheit und Reproduzierbarkeit zu gewährleisten.
Für Unternehmen, die LLMs in ihren Geschäftsprozessen einsetzen, sind diese Erkenntnisse von großer Bedeutung. Halluzinationen können zu falschen Empfehlungen, irreführenden Informationen in Kundenkommunikation oder inkorrekten Analysen führen. Dies kann nicht nur zu Reputationsschäden, sondern auch zu finanziellen Verlusten und rechtlichen Problemen führen.
Die Ergebnisse von HalluHard und HalluLens unterstreichen die Notwendigkeit, bei der Implementierung von LLMs im B2B-Sektor auf Modelle zu setzen, die nicht nur leistungsfähig, sondern auch hinsichtlich ihrer Halluzinationsanfälligkeit gut bewertet sind. Eine sorgfältige Auswahl und kontinuierliche Überwachung der eingesetzten Modelle ist unerlässlich. Darüber hinaus ist die Entwicklung und Implementierung von Mechanismen zur Unsicherheitserkennung und zur Verifizierung von generierten Inhalten von größter Wichtigkeit.
Die Fähigkeit von HalluHard, komplexe Multi-Turn-Dialoge und die Verankerung von Fakten in Volltextquellen zu bewerten, bietet eine solidere Grundlage für die Auswahl und Optimierung von LLM-Modellen für geschäftskritische Anwendungen. Durch die Berücksichtigung dieser Erkenntnisse können Unternehmen das Vertrauen in KI-generierte Inhalte stärken und die Vorteile dieser Technologien sicherer nutzen.
Die Forschung im Bereich der LLM-Halluzinationen ist weiterhin sehr aktiv. Benchmarks wie HalluHard und HalluLens tragen maßgeblich dazu bei, ein tieferes Verständnis für die Ursachen und Erscheinungsformen von Halluzinationen zu entwickeln. Zukünftige Arbeiten werden sich voraussichtlich auf folgende Bereiche konzentrieren:
Die kontinuierliche Arbeit an solchen Benchmarks ist entscheidend, um die Zuverlässigkeit und Vertrauenswürdigkeit von LLMs zu erhöhen und somit ihren sicheren und effektiven Einsatz in einer Vielzahl von B2B-Anwendungen zu ermöglichen.
Bibliography - Fan, D., Delsad, S., Flammarion, N., & Andriushchenko, M. (2026). HalluHard: A Hard Multi-Turn Hallucination Benchmark. arXiv preprint arXiv:2602.01031. - Bang, Y., Ji, Z., Schelten, A., Hartshorn, A., Fowler, T., Zhang, C., Cancedda, N., & Fung, P. (2025). HalluLens: LLM Hallucination Benchmark. arXiv preprint arXiv:2504.17550. - Vectara. (2024). Hallucination Leaderboard. Verfügbar unter: https://github.com/vectara/hallucination-leaderboard - RUCAIBox. (2023). HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models. Verfügbar unter: https://github.com/RUCAIBox/HaluEval - Emergent Mind. (2025). POPE and MMHal-Bench Benchmarks. Verfügbar unter: https://www.emergentmind.com/topics/pope-and-mmhal-bench-benchmarks - Vectara. (2024). HHEM v2: A New and Improved Factual Consistency Scoring Model. Verfügbar unter: https://www.vectara.com/blog/hhem-v2-a-new-and-improved-factual-consistency-scoring-model - Luo, W., Shen, T., Li, W., Peng, G., Xuan, R., Wang, H., & Yang, X. (2024). HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation. arXiv preprint arXiv:2406.07070.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen