Retrieval-Augmented Generation (RAG) hat sich als effektive Methode erwiesen, um die Wissensbasis von großen Sprachmodellen (LLMs) zu erweitern und Halluzinationen zu reduzieren. Viele kommerzielle Systeme wie ChatGPT und Perplexity nutzen Websuchmaschinen als primäre Retrieval-Systeme. Dabei werden Suchergebnisse abgerufen, der HTML-Quellcode heruntergeladen und anschließend Klartext daraus extrahiert. Dieser Klartext wird den LLMs dann als zusätzliche Information zur Verfügung gestellt. Allerdings gehen bei dieser Methode strukturelle und semantische Informationen, die im HTML-Code enthalten sind, wie Überschriften oder Tabellenstrukturen, verloren.
Um dieses Problem zu beheben, wurde HtmlRAG vorgeschlagen, ein Ansatz, der HTML anstelle von Klartext als Format für das abgerufene Wissen in RAG-Systemen verwendet. Die Hypothese dahinter ist, dass HTML mehr Informationen enthält als reiner Text und die meisten LLMs in der Lage sind, HTML robust zu verarbeiten.
Die Nutzung von HTML bringt jedoch auch Herausforderungen mit sich. HTML-Code enthält zusätzliche Elemente wie Tags, JavaScript und CSS-Spezifikationen, die zu zusätzlichen Input-Token und somit zu mehr "Rauschen" im RAG-System führen können. Um dem entgegenzuwirken, wurden Strategien zur Bereinigung, Komprimierung und Beschneidung von HTML entwickelt. Ziel ist es, den HTML-Code zu verkürzen, ohne dabei wichtige Informationen zu verlieren. Ein zweistufiges, blockbasiertes Verfahren entfernt irrelevante HTML-Blöcke und behält nur die relevanten Teile des Codes.
Die Verwendung von HTML in RAG-Systemen bietet mehrere potenzielle Vorteile:
Erhaltung von Struktur und Semantik: HTML ermöglicht die Beibehaltung von strukturellen Informationen wie Überschriften, Listen und Tabellen, die für das Verständnis des Kontextes und der Bedeutung des Textes wichtig sind. Verbesserte Genauigkeit und Relevanz: Durch die Berücksichtigung der HTML-Struktur können RAG-Systeme relevantere Informationen abrufen und genauere Antworten generieren. Reduzierung von Halluzinationen: Die zusätzliche Kontextinformation, die durch die HTML-Struktur bereitgestellt wird, kann dazu beitragen, Halluzinationen zu reduzieren, indem die generierten Antworten stärker an den tatsächlichen Inhalt der abgerufenen Dokumente gebunden werden. Effizientere Verarbeitung: Moderne LLMs sind in der Lage, HTML effizient zu verarbeiten, sodass die zusätzliche Komplexität des HTML-Codes im Vergleich zu Klartext keinen signifikanten Mehraufwand darstellt.
Trotz der Vorteile birgt die Verwendung von HTML in RAG-Systemen auch Herausforderungen:
Verarbeitung von zusätzlichem Code: HTML enthält Tags, JavaScript und CSS, die die Inputlänge für LLMs erhöhen und die Verarbeitung verlangsamen können. Relevanz von HTML-Elementen: Nicht alle HTML-Elemente sind für die Beantwortung einer Anfrage relevant. Die Identifizierung und Filterung irrelevanter Elemente ist entscheidend. Bereinigung und Komprimierung: Die Bereinigung von HTML-Code von unnötigen Elementen und die Komprimierung des Codes sind notwendig, um die Effizienz des RAG-Systems zu gewährleisten.
Um diesen Herausforderungen zu begegnen, wurden verschiedene Techniken entwickelt, darunter:
HTML-Bereinigung: Entfernung von irrelevantem Code wie JavaScript und CSS. HTML-Komprimierung: Verkürzung des HTML-Codes durch Entfernung von Leerzeichen und unnötigen Attributen. HTML-Beschneidung: Identifizierung und Entfernung irrelevanter HTML-Blöcke. Blockbasierte Beschneidung: Ein zweistufiges Verfahren, das HTML-Blöcke anhand ihrer Relevanz für die Anfrage bewertet und irrelevante Blöcke entfernt.
HtmlRAG bietet einen vielversprechenden Ansatz zur Verbesserung von RAG-Systemen durch die Nutzung der in HTML enthaltenen Struktur- und Semantik-Informationen. Die Bewältigung der damit verbundenen Herausforderungen durch effiziente Bereinigungs- und Beschneidungsstrategien ermöglicht es, das Potenzial von HTML in RAG-Systemen voll auszuschöpfen und die Qualität und Genauigkeit der generierten Antworten zu verbessern.
Bibliographie: https://huggingface.co/papers https://arxiv.org/html/2312.10997v5 https://medium.com/intel-tech/four-data-cleaning-techniques-to-improve-large-language-model-llm-performance-77bee9003625 https://www.digitalocean.com/resources/articles/rag https://arxiv.org/html/2409.14924v1 https://medium.com/@mayankchugh.jobathk/retrieval-augmented-generation-rag-702c5e978274 https://www.reddit.com/r/LocalLLaMA/comments/16cbimi/yet_another_rag_system_implementation_details_and/ https://docs.langchain4j.dev/tutorials/rag/ https://www.200ok.ai/blog/rag-vs-tag-a-deep-dive/ https://www.ibm.com/docs/en/watsonx/saas?topic=solutions-retrieval-augmented-generationEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen