Große Sprachmodelle (LLMs) verfügen über die beeindruckende Fähigkeit, Faktenwissen in ihren Parametern zu speichern und wissenintensive Aufgaben zu lösen. Allerdings kann das in ihren Parametern gespeicherte Wissen ungenau oder veraltet sein. Um dieses Problem zu beheben, wurden Retrieval- und Tool-Augmented-Ansätze entwickelt, die LLMs mit externem Wissen (kontextbezogenes Wissen) versorgen. Solches kontextbezogenes Wissen kann jedoch Informationen enthalten, die mit dem in den Parametern des Modells gespeicherten Wissen kollidieren, was zu unerwünschtem Verhalten führen kann. Beispielsweise kann sich das Modell auf ungenaue Informationsquellen verlassen und ungenaue Ausgaben erzeugen.
Frühere Forschungen haben gezeigt, dass LLMs dazu neigen, kontextbezogenes Wissen (z. B. abgerufene Passagen) gegenüber ihrem eigenen, in den Parametern gespeicherten Wissen zu bevorzugen. In allgemeineren Anwendungen sollten LLMs jedoch die Fähigkeit behalten, auf ihr parametrisches Wissen zurückzugreifen, wenn ihnen falsche oder unerwünschte Informationen präsentiert werden. Um dieses Ziel zu erreichen, wird von LLMs erwartet, dass sie das Vorhandensein von Konflikten erkennen und den Benutzer darauf aufmerksam machen können, während der Entscheidungsprozess für weitere Maßnahmen unter der Kontrolle des Benutzers bleibt. Bestehende Arbeiten untersuchen die Feinabstimmung und Prompt-basierte Strategien zur Erkennung von Wissenskonflikten. Diese Methoden erfordern zusätzliche Interaktionen mit dem Modell, z. B. indem die LLMs aufgefordert werden, die Konflikte Satz für Satz zu untersuchen, was zu hohen Latenzzeiten führen und praktische Anwendungen dieser Modelle verhindern kann. Darüber hinaus bieten sie keinen Einblick, wie LLMs Konflikte intern erkennen und lösen.
In der vorliegenden Arbeit wird der Residual Stream in LLMs analysiert, um ihr Verhalten bei Wissenskonflikten besser zu verstehen, insbesondere zwischen parametrischem Wissen und kontextbezogenem Wissen. Die durchgeführten Probing-Experimente am Residual Stream zeigen, dass das Signal für einen Wissenskonflikt in den mittleren Schichten (z. B. der 13. Schicht von Llama3-8B) auftritt. Unter Verwendung dieses Signals kann ein einfaches logistisches Regressionsmodell eine Genauigkeit von 90 % bei der Erkennung von Wissenskonflikten erreichen, ohne die Eingabe und die Parameter von LLMs zu verändern, und das bei nur geringem zusätzlichen Rechenaufwand. Darüber hinaus wurde beobachtet, dass der Residual Stream ab den mittleren Schichten (z. B. der 17. Schicht von Llama3-8B) unterschiedliche Muster aufweist, je nachdem, auf welche Informationsquelle das Modell zur Lösung des Konflikts zurückgreift. Verwendet das Modell beispielsweise kontextbezogenes Wissen, weist der Residual Stream eine deutlich schiefere Verteilung auf als bei Verwendung des eigenen, in den Parametern gespeicherten Wissens.
Zusammenfassend lässt sich sagen, dass die Analyse des Residual Streams Folgendes zeigt: 1) LLMs verfügen über interne Mechanismen zur Identifizierung von Konflikten, und dieses Signal kann genutzt werden, um Konflikte in den mittleren Schichten von LLMs effektiv zu erkennen; 2) LLMs zeigen unterschiedliche Schiefemuster im Residual Stream, wenn sie unterschiedliche Informationsquellen nutzen, was Rückschlüsse auf das Verhalten des Modells zulässt.
**Literaturverzeichnis**
* Zhao, Y., Du, X., Hong, G., Gema, A. P., Devoto, A., Wang, H., He, X., Wong, K.-F., & Minervini, P. (2024). Analysing the Residual Stream of Language Models Under Knowledge Conflicts. In *Foundation Model Interventions Workshop @ NeurIPS 2024*. Abgerufen von https://arxiv.org/abs/2410.16090
* Longpre, S., Lu, Y., Wang, A., Zhou, D., & Bowman, S. R. (2021). NQ-swap: Improving robustness to irrelevance in neural question answering. *Transactions of the Association for Computational Linguistics, 9*, 1424–1440. https://doi.org/10.1162/tacl_a_00401
* Hong, G., Liu, Z., Du, X., He, X., Chang, S., & Minervini, P. (2024). Macnoise: A benchmark for hallucination detection and mitigation in generative and retrieval-augmented models. In *Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)* (S. 1089–1104). Association for Computational Linguistics. https://doi.org/10.18653/v1/2024.acl-long.98
* Xie, J., Zhang, K., Chen, J., Lou, R., & Su, Y. (2024). Adaptive chameleon or stubborn sloth: Revealing the behavior of large language models in knowledge conflicts. In *Proceedings of the 2024 ACM SIGIR Conference on Human Information Interaction and Retrieval* (S. 272–282). Association for Computing Machinery. https://doi.org/10.1145/3581511.3588468
* Su, Y., Xie, J., Zhang, K., Lou, R., & Chen, J. (2024). Conflictqa: Towards revealing and mitigating unsafe reliance on retrieved evidence. In *Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval* (S. 1030–1040). Association for Computing Machinery. https://doi.org/10.1145/3539618.3591893
* Wang, Y., Feng, S., Wang, H., Shi, W., Balachandran, V., He, T., & Tsvetkov, Y. (2024). Resolving knowledge conflicts in large language models. In *Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing* (S. 14460–14481). Association for Computational Linguistics. https://doi.org/10.18653/v1/2024.emnlp-main.882
* Dubey, A., Agrawal, A., Brahma, A., Gupta, C., Jain, V., Kothari, S., … & Goyal, N. (2024). Llama 3: Open foundation models scaled up with trillion tokens. *arXiv preprint arXiv:2405.14334*.
* Elhage, N., Nanda, N., Olsson, C., … & Amodei, D. (2021). A mathematical framework for transformer circuits. *Transformer Circuits Thread*. https://transformer-circuits.pub/2021/10/13/the-residual-stream-is-a-lie.html
* Olsson, C., Elhage, N., Nanda, N., … & Amodei, D. (2022). In-context learning and induction heads. *Transformer Circuits Thread*. https://transformer-circuits.pub/2022/08/03/in-context-learning-and-induction-heads/
* Conneau, A., Kruszewski, G., Lample, G., Barrault, L., & Jégou, H. (2018). What you can cram into a single vector: Probing sentence embeddings for information about the subject and object of a verb. In *Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)* (S. 2321–2331). Association for Computational Linguistics. https://doi.org/10.18653/v1/p18-1209
* Zhu, J., & Li, Y. (2023). A comprehensive survey on transfer learning in natural language processing: Data perspective. *arXiv preprint arXiv:2304.03214*.
* Allen-Zhu, Z., & Li, Y. (2023). Can transformers learn with realistic data? a theoretical perspective on data importance. *arXiv preprint arXiv:2301.07822*.
* Chen, X., & Shu, R. (2023b). Large language model (llm) for financial risk management: Opportunities, challenges and future directions. *arXiv preprint arXiv:2306.09886*.
* Chen, X., & Shu, R. (2023a). Survey of large language models for finance. *arXiv preprint arXiv:2305.08473*.
* Zou, A., Wang, Z., Li, J., Liu, W., Zhou, J., & Sun, M. (2024). Enhancing factual consistency of large language models through factual knowledge graph distillation. In *Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval* (S. 1041–1051). Association for Computing Machinery. https://doi.org/10.1145/3539618.3591894
* Mallen, N., Karpukhin, V., Saxe, A., … & Weston, J. (2023). Flamingo: a visual language model for few-shot learning. *arXiv preprint arXiv:2204.14135*.
* Zhong, W., Yin, D., Gu, Y., … & Han, J. (2023). Towards reasoning in large language models: A survey. *arXiv preprint arXiv:2212.10403*.
* Petroni, F., Rocktäschel, T., Riedel, S., … & Socher, R. (2019). Language models as knowledge bases? In *Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)* (S. 2463–2473). Association for Computational Linguistics. https://doi.org/10.18653/v1/d19-1250
* Brown, T. B., Mann, B., Ryder, N., … & Amodei, D. (2020). Language models are few-shot learners. *Advances in Neural Information Processing Systems, 33*, 1877–1901.
* Touvron, H., Lavril, T., Izacard, G., … & Lhoest, Q. (2023). Llama 2: Open foundation and fine-tuned chat models. *arXiv preprint arXiv:2307.09288*.
* Jiang, Z., Liu, W., Zhu, X., … & Han, J. (2023). Sprite: Text-to-image diffusion model with spatially controllable sparsities. *arXiv preprint arXiv:2302.09731*.
* Team, G. P. T., Anil, R., … & Metzler, D. (2023). PaLM 2 technical report. *arXiv preprint arXiv:2305.14388*.
* Karpukhin, V., Oguz, B., Min, S., … & Yih, W.-t. (2020). Dense passage retrieval for open-domain question answering. In *Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)* (S. 6769–6781). Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.emnlp-main.550
* Lewis, P., Perez, E., Piktus, A., … & Riedel, S. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. *Advances in Neural Information Processing Systems, 33*, 9459–9474.
* Wu, S., Gu, X., … & Yan, J. (2022). GLM-130B: An open bilingual pre-trained model. *arXiv preprint arXiv:2210.02414*.
* Schick, T., Dwivedi-Yu, J., … & Hajishirzi, H. (2024). Toolformer: Language models can teach themselves to use tools. *Transactions of the Association for Computational Linguistics, 12*, 212–227. https://doi.org/10.1162/tacl_a_00562
Mindverse vs ChatGPT Plus Widget