Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration von Großen Sprachmodellen (LLMs) in wissenschaftliche Schreibprozesse hat das Potenzial, die Effizienz und Produktivität erheblich zu steigern. Gleichwohl haben sich Bedenken hinsichtlich der Qualität und Zuverlässigkeit der generierten Inhalte gezeigt, insbesondere im Hinblick auf die Präzision und Verlässlichkeit von Zitaten. Ein aktueller Forschungsbeitrag stellt mit „CiteGuard“ ein Framework vor, welches sich dieser Herausforderung annimmt und die Zitationszuordnung in LLM-generierten Texten durch eine retrieval-gestützte Validierung signifikant verbessern soll.
Die Fähigkeit von LLMs, kohärente und sachlich korrekte Texte zu erstellen, ist beeindruckend. Jedoch offenbart sich eine Schwäche bei der präzisen und korrekten Zitationszuordnung, insbesondere im wissenschaftlichen Kontext. Frühere Ansätze, die LLMs selbst zur Bewertung von Zitaten heranziehen („LLM-as-a-Judge“), haben sich als nicht ausreichend zuverlässig erwiesen. Diese Modelle können zwar offensichtlich falsche Zitationen erkennen, lehnen aber oft korrekte Zitationen ab, weil ihnen der notwendige Kontext fehlt. Dies führt zu einer niedrigen „Recall“-Rate von lediglich 16-17%.
CiteGuard positioniert die Zitationsevaluation neu als Problem der Zitationszuordnungs-Ausrichtung. Dabei wird bewertet, ob die von LLMs generierten Zitationen jenen entsprechen, die ein menschlicher Autor für denselben Text verwenden würde. Das Framework ist als retrieval-gestütztes Agentenmodell konzipiert, das eine verlässlichere Grundlage für die Zitationsvalidierung bieten soll.
Die wesentliche Verbesserung von CiteGuard gegenüber bestehenden Baselines wie CiteAgent liegt in der Einführung erweiterter Retrieval-Aktionen. Während CiteAgent stark auf die „read“-Aktion angewiesen ist, die einen zuverlässigen Zugriff auf vollständige PDF-Dokumente voraussetzt, minimiert CiteGuard diese Abhängigkeit durch zwei neue Schlüsselaktionen:
Diese flexibleren Retrieval-Methoden tragen maßgeblich zur Robustheit und Genauigkeit von CiteGuard bei. Die Analyse zeigte auch, dass das gezielte Abrufen relevanter Textstellen gegenüber der Bereitstellung des gesamten Dokumententextes zwar einen geringfügigen Genauigkeitsverlust von etwa 3,07% mit sich bringen kann, dies jedoch mit einer erheblichen Reduzierung der benötigten Token einhergeht (bis zu 4-mal weniger Token).
Die Evaluation von CiteGuard erfolgte auf dem CiteME-Benchmark, welcher 130 Textauszüge aus menschlich verfassten Manuskripten in verschiedenen Bereichen der Computerwissenschaften umfasst. Die Aufgabe bestand darin, für jeden Auszug eine fehlende Zitation zu ergänzen.
CiteGuard übertraf die vorherige Baseline signifikant und erzielte eine Genauigkeit von bis zu 65,4% bei der korrekten Referenzierung. Dies ist bemerkenswert, da die menschliche Leistung auf demselben Benchmark bei 69,7% liegt. Insbesondere in Kombination mit dem Open-Source-Modell DeepSeek-R1 erreichte CiteGuard diese hohe Performance. Die Fähigkeit von CiteGuard, auch plausible alternative Zitationen vorzuschlagen, die von menschlichen Annotatoren als relevant eingestuft wurden, unterstreicht die Qualität des Frameworks.
Ein weiterer wichtiger Befund ist die Modellagnostik von CiteGuard. Sowohl proprietäre Modelle wie GPT-4o als auch Open-Source-Modelle wie Qwen3 konnten relevante Alternativen effektiv identifizieren, was die breite Anwendbarkeit des Ansatzes demonstriert.
Im Vergleich zu spezialisierten Paper Findern, wie dem AI2 Paper Finder, zeigte CiteGuard eine vergleichbare oder sogar überlegene Leistung. Die Top-1-Genauigkeit von CiteGuard mit DeepSeek-R1 lag bei 65,4%, während der AI2 Paper Finder 38,5% erreichte. Dies deutet darauf hin, dass CiteGuard durch die Integration des Kontextes des Textausschnitts eine höhere Zuverlässigkeit erlangen kann.
Für Unternehmen, die LLMs im Bereich der Wissensgenerierung, Berichterstattung oder Content-Erstellung einsetzen, bietet CiteGuard entscheidende Vorteile:
Die Entwicklung von CiteGuard stellt einen wichtigen Fortschritt in der Bewältigung der Herausforderungen dar, die mit der Zitationsgenauigkeit von Großen Sprachmodellen verbunden sind. Durch seinen retrieval-gestützten Validierungsansatz und die Einführung intelligenter Retrieval-Aktionen erreicht CiteGuard eine bemerkenswerte Leistung, die nahe an die menschliche Genauigkeit heranreicht. Dies eröffnet neue Perspektiven für die vertrauenswürdige und effiziente Nutzung von LLMs in anspruchsvollen B2B-Anwendungen, insbesondere in Bereichen, in denen die Verlässlichkeit von Quellen von größter Bedeutung ist.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen