KI für Ihr Unternehmen – Jetzt Demo buchen

Analyse des Residual Streams in Sprachmodellen zur Erkennung von Wissenskonflikten

Kategorien:
No items found.
Freigegeben:
October 29, 2024

Artikel jetzt als Podcast anhören

Große Sprachmodelle (LLMs) verfügen über die beeindruckende Fähigkeit, Faktenwissen in ihren Parametern zu speichern und wissenintensive Aufgaben zu lösen. Allerdings kann das in ihren Parametern gespeicherte Wissen ungenau oder veraltet sein. Um dieses Problem zu beheben, wurden Retrieval- und Tool-Augmented-Ansätze entwickelt, die LLMs mit externem Wissen (kontextbezogenes Wissen) versorgen. Solches kontextbezogenes Wissen kann jedoch Informationen enthalten, die mit dem in den Parametern des Modells gespeicherten Wissen kollidieren, was zu unerwünschtem Verhalten führen kann. Beispielsweise kann sich das Modell auf ungenaue Informationsquellen verlassen und ungenaue Ausgaben erzeugen. Frühere Forschungen haben gezeigt, dass LLMs dazu neigen, kontextbezogenes Wissen (z. B. abgerufene Passagen) gegenüber ihrem eigenen, in den Parametern gespeicherten Wissen zu bevorzugen. In allgemeineren Anwendungen sollten LLMs jedoch die Fähigkeit behalten, auf ihr parametrisches Wissen zurückzugreifen, wenn ihnen falsche oder unerwünschte Informationen präsentiert werden. Um dieses Ziel zu erreichen, wird von LLMs erwartet, dass sie das Vorhandensein von Konflikten erkennen und den Benutzer darauf aufmerksam machen können, während der Entscheidungsprozess für weitere Maßnahmen unter der Kontrolle des Benutzers bleibt. Bestehende Arbeiten untersuchen die Feinabstimmung und Prompt-basierte Strategien zur Erkennung von Wissenskonflikten. Diese Methoden erfordern zusätzliche Interaktionen mit dem Modell, z. B. indem die LLMs aufgefordert werden, die Konflikte Satz für Satz zu untersuchen, was zu hohen Latenzzeiten führen und praktische Anwendungen dieser Modelle verhindern kann. Darüber hinaus bieten sie keinen Einblick, wie LLMs Konflikte intern erkennen und lösen. In der vorliegenden Arbeit wird der Residual Stream in LLMs analysiert, um ihr Verhalten bei Wissenskonflikten besser zu verstehen, insbesondere zwischen parametrischem Wissen und kontextbezogenem Wissen. Die durchgeführten Probing-Experimente am Residual Stream zeigen, dass das Signal für einen Wissenskonflikt in den mittleren Schichten (z. B. der 13. Schicht von Llama3-8B) auftritt. Unter Verwendung dieses Signals kann ein einfaches logistisches Regressionsmodell eine Genauigkeit von 90 % bei der Erkennung von Wissenskonflikten erreichen, ohne die Eingabe und die Parameter von LLMs zu verändern, und das bei nur geringem zusätzlichen Rechenaufwand. Darüber hinaus wurde beobachtet, dass der Residual Stream ab den mittleren Schichten (z. B. der 17. Schicht von Llama3-8B) unterschiedliche Muster aufweist, je nachdem, auf welche Informationsquelle das Modell zur Lösung des Konflikts zurückgreift. Verwendet das Modell beispielsweise kontextbezogenes Wissen, weist der Residual Stream eine deutlich schiefere Verteilung auf als bei Verwendung des eigenen, in den Parametern gespeicherten Wissens. Zusammenfassend lässt sich sagen, dass die Analyse des Residual Streams Folgendes zeigt: 1) LLMs verfügen über interne Mechanismen zur Identifizierung von Konflikten, und dieses Signal kann genutzt werden, um Konflikte in den mittleren Schichten von LLMs effektiv zu erkennen; 2) LLMs zeigen unterschiedliche Schiefemuster im Residual Stream, wenn sie unterschiedliche Informationsquellen nutzen, was Rückschlüsse auf das Verhalten des Modells zulässt. **Literaturverzeichnis** * Zhao, Y., Du, X., Hong, G., Gema, A. P., Devoto, A., Wang, H., He, X., Wong, K.-F., & Minervini, P. (2024). Analysing the Residual Stream of Language Models Under Knowledge Conflicts. In *Foundation Model Interventions Workshop @ NeurIPS 2024*. Abgerufen von https://arxiv.org/abs/2410.16090 * Longpre, S., Lu, Y., Wang, A., Zhou, D., & Bowman, S. R. (2021). NQ-swap: Improving robustness to irrelevance in neural question answering. *Transactions of the Association for Computational Linguistics, 9*, 1424–1440. https://doi.org/10.1162/tacl_a_00401 * Hong, G., Liu, Z., Du, X., He, X., Chang, S., & Minervini, P. (2024). Macnoise: A benchmark for hallucination detection and mitigation in generative and retrieval-augmented models. In *Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)* (S. 1089–1104). Association for Computational Linguistics. https://doi.org/10.18653/v1/2024.acl-long.98 * Xie, J., Zhang, K., Chen, J., Lou, R., & Su, Y. (2024). Adaptive chameleon or stubborn sloth: Revealing the behavior of large language models in knowledge conflicts. In *Proceedings of the 2024 ACM SIGIR Conference on Human Information Interaction and Retrieval* (S. 272–282). Association for Computing Machinery. https://doi.org/10.1145/3581511.3588468 * Su, Y., Xie, J., Zhang, K., Lou, R., & Chen, J. (2024). Conflictqa: Towards revealing and mitigating unsafe reliance on retrieved evidence. In *Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval* (S. 1030–1040). Association for Computing Machinery. https://doi.org/10.1145/3539618.3591893 * Wang, Y., Feng, S., Wang, H., Shi, W., Balachandran, V., He, T., & Tsvetkov, Y. (2024). Resolving knowledge conflicts in large language models. In *Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing* (S. 14460–14481). Association for Computational Linguistics. https://doi.org/10.18653/v1/2024.emnlp-main.882 * Dubey, A., Agrawal, A., Brahma, A., Gupta, C., Jain, V., Kothari, S., … & Goyal, N. (2024). Llama 3: Open foundation models scaled up with trillion tokens. *arXiv preprint arXiv:2405.14334*. * Elhage, N., Nanda, N., Olsson, C., … & Amodei, D. (2021). A mathematical framework for transformer circuits. *Transformer Circuits Thread*. https://transformer-circuits.pub/2021/10/13/the-residual-stream-is-a-lie.html * Olsson, C., Elhage, N., Nanda, N., … & Amodei, D. (2022). In-context learning and induction heads. *Transformer Circuits Thread*. https://transformer-circuits.pub/2022/08/03/in-context-learning-and-induction-heads/ * Conneau, A., Kruszewski, G., Lample, G., Barrault, L., & Jégou, H. (2018). What you can cram into a single vector: Probing sentence embeddings for information about the subject and object of a verb. In *Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)* (S. 2321–2331). Association for Computational Linguistics. https://doi.org/10.18653/v1/p18-1209 * Zhu, J., & Li, Y. (2023). A comprehensive survey on transfer learning in natural language processing: Data perspective. *arXiv preprint arXiv:2304.03214*. * Allen-Zhu, Z., & Li, Y. (2023). Can transformers learn with realistic data? a theoretical perspective on data importance. *arXiv preprint arXiv:2301.07822*. * Chen, X., & Shu, R. (2023b). Large language model (llm) for financial risk management: Opportunities, challenges and future directions. *arXiv preprint arXiv:2306.09886*. * Chen, X., & Shu, R. (2023a). Survey of large language models for finance. *arXiv preprint arXiv:2305.08473*. * Zou, A., Wang, Z., Li, J., Liu, W., Zhou, J., & Sun, M. (2024). Enhancing factual consistency of large language models through factual knowledge graph distillation. In *Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval* (S. 1041–1051). Association for Computing Machinery. https://doi.org/10.1145/3539618.3591894 * Mallen, N., Karpukhin, V., Saxe, A., … & Weston, J. (2023). Flamingo: a visual language model for few-shot learning. *arXiv preprint arXiv:2204.14135*. * Zhong, W., Yin, D., Gu, Y., … & Han, J. (2023). Towards reasoning in large language models: A survey. *arXiv preprint arXiv:2212.10403*. * Petroni, F., Rocktäschel, T., Riedel, S., … & Socher, R. (2019). Language models as knowledge bases? In *Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)* (S. 2463–2473). Association for Computational Linguistics. https://doi.org/10.18653/v1/d19-1250 * Brown, T. B., Mann, B., Ryder, N., … & Amodei, D. (2020). Language models are few-shot learners. *Advances in Neural Information Processing Systems, 33*, 1877–1901. * Touvron, H., Lavril, T., Izacard, G., … & Lhoest, Q. (2023). Llama 2: Open foundation and fine-tuned chat models. *arXiv preprint arXiv:2307.09288*. * Jiang, Z., Liu, W., Zhu, X., … & Han, J. (2023). Sprite: Text-to-image diffusion model with spatially controllable sparsities. *arXiv preprint arXiv:2302.09731*. * Team, G. P. T., Anil, R., … & Metzler, D. (2023). PaLM 2 technical report. *arXiv preprint arXiv:2305.14388*. * Karpukhin, V., Oguz, B., Min, S., … & Yih, W.-t. (2020). Dense passage retrieval for open-domain question answering. In *Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)* (S. 6769–6781). Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.emnlp-main.550 * Lewis, P., Perez, E., Piktus, A., … & Riedel, S. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. *Advances in Neural Information Processing Systems, 33*, 9459–9474. * Wu, S., Gu, X., … & Yan, J. (2022). GLM-130B: An open bilingual pre-trained model. *arXiv preprint arXiv:2210.02414*. * Schick, T., Dwivedi-Yu, J., … & Hajishirzi, H. (2024). Toolformer: Language models can teach themselves to use tools. *Transactions of the Association for Computational Linguistics, 12*, 212–227. https://doi.org/10.1162/tacl_a_00562
Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen