Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Weiterentwicklung von großen Sprachmodellen (LLMs) hat zu signifikanten Fortschritten in der künstlichen Intelligenz geführt. Insbesondere im Bereich der Retrieval Augmented Generation (RAG) werden kontinuierlich neue Ansätze erforscht, um die Faktizität zu erhöhen und Halluzinationen zu reduzieren. Eine aktuelle Veröffentlichung von Giulio Corallo und Paolo Papotti stellt mit dem "Parallel Context-of-Experts Decoding" (PCED) ein Framework vor, das darauf abzielt, die Herausforderungen bei der Verarbeitung langer Kontexte in RAG-Systemen zu adressieren.
Traditionelle RAG-Pipelines stehen vor einem grundlegenden Kompromiss: Das Verketten mehrerer abgerufener Dokumente in einem einzigen langen Prompt ermöglicht zwar ein besseres Reasoning über mehrere Dokumente hinweg, führt jedoch zu Engpässen bei der Vorbefüllung (Prefill Bottlenecks). Die separate Kodierung von Dokumenten in Key-Value (KV)-Caches kann die Geschwindigkeit erhöhen, beeinträchtigt aber die Interaktion zwischen den Dokumenten, was die Fähigkeit des Modells, Evidenz aus verschiedenen Quellen zu integrieren, einschränkt. Diese Problematik wird besonders bei komplexen Anfragen relevant, die Informationen aus mehreren Dokumenten erfordern.
PCED ist ein trainingsfreies Framework, das die Aggregation von Evidenz vom Aufmerksamkeitsmechanismus auf den Decodierungsprozess verlagert. Es behandelt jedes abgerufene Dokument als einen isolierten "Experten", der eine Verteilung für das nächste Token vorschlägt. Die Vorhersagen dieser Experten werden durch eine neuartige, Retrieval-sensitive Kontrast-Decodierungsregel synchronisiert. Diese Regel gewichtet die Logits der Experten gegenüber dem Modell-Prior, wodurch die Fähigkeiten zum Reasoning über mehrere Dokumente hinweg wiederhergestellt werden, ohne dass eine gemeinsame Aufmerksamkeit über alle Dokumente hinweg aufgebaut werden muss.
Das Framework basiert auf drei Hauptbeiträgen:
Die Relevanzbewertung der Dokumente, die üblicherweise zur Dokumentenauswahl genutzt und anschließend verworfen wird, wird in PCED als ein Dokument-Level-Prior genutzt. Dieser Prior steuert, wie stark jeder Experte die Verteilung des nächsten Tokens beeinflusst. Durch die Kombination von Retrieval- und Reranker-Scores zu einer einzigen Relevanzbewertung wird die Vertrauenswürdigkeit jedes Dokuments während des Decodierens berücksichtigt.
Die Wirksamkeit von PCED wurde auf verschiedenen Benchmarks, darunter LOFT und LongBench, evaluiert. Die Tests umfassten RAG-Aufgaben, In-Context Learning (ICL) und Long-Context QA mit Distraktoren.
Die Forschung untersuchte auch die individuellen Beiträge der Kontrast-Decodierung und des Retrieval-Priors. Es zeigte sich, dass beide Komponenten entscheidend für die Leistungsfähigkeit des Systems sind. Das Entfernen des Retrieval-Priors oder der Kontrast-Kalibrierung führte zu erheblichen Genauigkeitsverlusten. Die Max-Aggregation erwies sich als besonders effektiv für das Token-Level-Expertenwechsel bei Multi-Hop-QA-Aufgaben.
PCED bietet eine Alternative zu Modellen mit langem Kontext, indem es die Anzahl der Dokumente flexibel mit der Batch-Größe skaliert, anstatt durch das Trainingskontextfenster begrenzt zu sein. Dies ermöglicht eine effiziente und genaue Verarbeitung von umfangreichen Informationen in RAG-Systemen. Die Methode ist besonders vorteilhaft für read-heavy, write-rare Szenarien, wie beispielsweise in Unternehmenswissensdatenbanken, wo der amortisierte Speicherkosten durch die Reduzierung der Abfragezeit gerechtfertigt ist.
Das Framework ist jedoch nicht ohne Einschränkungen. Es ist auf den Zugriff auf Modell-Logits angewiesen, was die Anwendung auf Closed-Source- oder API-only-Sprachmodelle erschwert. Zudem hängt die Leistung von der Qualität der abgerufenen Dokumente und deren Relevanzbewertung ab. Zukünftige Forschungsarbeiten könnten sich darauf konzentrieren, Sprachmodelle explizit für parallele kontextuelle Eingaben zu trainieren und zu lernen, welchem Input bei jedem nächsten Token Aufmerksamkeit geschenkt werden soll. Dies könnte die Abhängigkeit von externen Retrieval-Pipelines reduzieren und ein End-to-End-Lernen der Expertenauswahl und -aggregation ermöglichen.
Das Parallel Context-of-Experts Decoding stellt einen bedeutenden Fortschritt in der Optimierung von Retrieval Augmented Generation dar. Durch die Verlagerung der Evidenzaggregation auf die Decodierungsphase und die Nutzung eines Retrieval-sensitiven Kontrast-Decodierens adressiert PCED zentrale Effizienz- und Genauigkeitsprobleme. Die erzielten Leistungssteigerungen und die verbesserte Robustheit gegenüber irrelevanten Informationen positionieren PCED als vielversprechendes Framework für zukünftige Anwendungen in der KI, insbesondere für datenintensive B2B-Szenarien.
Die vorgestellten Ergebnisse deuten darauf hin, dass die Integration von PCED in bestehende RAG-Systeme zu einer erheblichen Verbesserung der Leistung und Effizienz führen kann, was für Unternehmen, die auf präzise und schnelle Informationsverarbeitung angewiesen sind, von großem Interesse ist.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen