Die semantische Suche, also die Suche nach Informationen basierend auf der Bedeutung einer Anfrage und nicht nur auf Keywords, gewinnt in der modernen Informationsgesellschaft zunehmend an Bedeutung. Anwendungen wie E-Commerce-Plattformen, Suchmaschinen und Wissensdatenbanken profitieren von ihrer Fähigkeit, Nutzeranfragen präziser zu interpretieren und relevantere Ergebnisse zu liefern. Trotz ihrer Relevanz ist die semantische Suche, insbesondere im mehrsprachigen Kontext, noch Gegenstand aktueller Forschung.
Bisherige Datensätze für semantische Suchmodelle beschränken sich oft auf einzelne Sprachen, einzelne Bilder oder spezifische Suchanfragen. Sie spiegeln nicht die Komplexität realer Suchanfragen wider, die häufig mehrere Bedingungen, Bilder und Sprachen umfassen. Ein Beispiel hierfür sind Suchanfragen in Online-Shops, bei denen Nutzer nach Produkten anhand von Farbe, Größe, Material und weiteren Eigenschaften in ihrer Muttersprache suchen.
Ein Forschungsteam hat nun mit MERIT (Multilingual Semantic Retrieval with Interleaved Multi-Condition Query) einen neuen Datensatz vorgestellt, der speziell für die mehrsprachige semantische Suche mit komplexen, verschachtelten Anfragen entwickelt wurde. MERIT umfasst 320.000 Suchanfragen und 135.000 Produkte in fünf Sprachen und deckt sieben verschiedene Produktkategorien ab. Die Größe und Diversität dieses Datensatzes ermöglichen es, realistischere Szenarien zu simulieren und die Leistung von Suchmodellen unter anspruchsvollen Bedingungen zu evaluieren.
Tests mit MERIT haben gezeigt, dass bestehende Modelle für semantische Suche Schwierigkeiten mit komplexen, mehrsprachigen Anfragen haben. Sie konzentrieren sich oft auf die globale semantische Information der Anfrage und vernachlässigen dabei spezifische Bedingungen, wie beispielsweise die Farbe oder Größe eines gesuchten Produkts. Dies führt zu ungenauen Suchergebnissen, da die Feinheiten der Anfrage nicht ausreichend berücksichtigt werden.
Um diese Herausforderungen zu adressieren, wurde Coral entwickelt, ein neues Framework zur Feinabstimmung von vortrainierten mehrsprachigen Sprachmodellen (MLLMs). Coral integriert zwei Schlüsselkomponenten:
Die Rekonstruktion von Einbettungen, um feinkörnige, konditionale Elemente in den Anfragen zu erhalten. Kontrastives Lernen, um umfassende globale Semantik zu extrahieren.
Durch die Kombination dieser beiden Ansätze kann Coral sowohl die globalen semantischen Informationen als auch die spezifischen Bedingungen der Anfrage erfassen und so die Genauigkeit der Suchergebnisse verbessern. Experimente haben gezeigt, dass Coral im Vergleich zu herkömmlichen Ansätzen eine Leistungssteigerung von 45,9% auf MERIT erzielt und zudem eine hohe Generalisierungsfähigkeit aufweist, die durch Tests auf acht etablierten Retrieval-Benchmarks bestätigt wurde.
MERIT und Coral stellen einen wichtigen Fortschritt im Bereich der mehrsprachigen semantischen Suche dar. Der Datensatz bietet eine realistische Grundlage für die Entwicklung und Evaluierung neuer Modelle, während das Feinabstimmungs-Framework Coral einen vielversprechenden Ansatz zur Verbesserung der Suchgenauigkeit liefert. Diese Entwicklungen eröffnen neue Möglichkeiten für die Entwicklung von intelligenten Suchsystemen, die den komplexen Anforderungen moderner Anwendungen gerecht werden. Für Unternehmen wie Mindverse, die sich auf KI-gestützte Content-Erstellung und maßgeschneiderte KI-Lösungen spezialisiert haben, bieten diese Fortschritte wertvolle Impulse für die Entwicklung innovativer Produkte und Dienstleistungen, beispielsweise im Bereich Chatbots, Voicebots und KI-Suchmaschinen.
Bibliographie: https://arxiv.org/html/2506.03144v1 https://huggingface.co/papers/2506.03144 https://paperreading.club/page?id=312962 https://chatpaper.com/chatpaper/?id=4&date=1748966400&page=1 https://huggingface.co/papers?q=query-item%20relevance https://medium.com/red-buffer/building-a-multilingual-cross-language-semantic-search-engine-using-cohere-76595ebc679e https://www.arxiv.org/list/cs.LG/2024-11?skip=2225&show=2000 https://www.bcs.org/media/7554/dd-2020-david-maxwell.pdf https://library.oapen.org/bitstream/20.500.12657/27766/1/1002239.pdf