Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Suche nach Informationen im Internet ist für viele Menschen alltäglich. Suchmaschinen liefern schnell und effizient Ergebnisse zu textbasierten Anfragen. Doch die Suche nach visuellen Inhalten gestaltet sich oft schwieriger. Herkömmliche Suchmaschinen stoßen an ihre Grenzen, wenn es darum geht, unbekannte visuelle Inhalte zu verstehen und zu verarbeiten. Besonders deutlich wird diese Herausforderung bei großen Vision-Language-Modellen (VLMs). Diese Modelle haben Schwierigkeiten, zuverlässige Antworten auf Fragen zu Bildern zu generieren, wenn sie den abgebildeten Objekten oder Szenen vorher nicht begegnet sind.
VLMs werden mit riesigen Datensätzen trainiert, die sowohl Text als auch Bilder enthalten. Dieses Training ermöglicht es ihnen, komplexe Zusammenhänge zwischen visuellen und sprachlichen Informationen zu erkennen. Allerdings ist es unmöglich, VLMs mit allen möglichen Objekten und Szenarien zu trainieren, die in der realen Welt vorkommen. Die ständige Erweiterung und Aktualisierung dieser Modelle ist aufgrund des enormen Rechenaufwands zudem sehr aufwendig und kostspielig.
Stellen Sie sich vor, Sie fotografieren eine ungewöhnliche Blume und möchten ihren Namen herausfinden. Ein herkömmliches VLM könnte Schwierigkeiten haben, die Blume zu identifizieren, wenn sie nicht im Trainingsdatensatz enthalten war. Ähnliche Probleme treten auf, wenn Bilder neue Objekte, Ereignisse oder Kombinationen von bekannten Objekten in ungewohnten Kontexten zeigen.
Um diese Einschränkungen zu überwinden, wurde der "Vision Search Assistant" entwickelt. Dieses neuartige Framework ermöglicht die Zusammenarbeit zwischen VLMs und Web-Agents. Web-Agents sind Programme, die autonom im Internet nach Informationen suchen können. Der Vision Search Assistant kombiniert die visuellen Verständnisfähigkeiten von VLMs mit dem Echtzeit-Informationszugriff von Web-Agents, um eine sogenannte "Retrieval-Augmented Generation" zu ermöglichen.
Konkret funktioniert das so: Das VLM analysiert das Bild und extrahiert relevante visuelle Merkmale. Diese Merkmale werden dann vom Web-Agent verwendet, um im Internet nach ähnlichen Bildern und Informationen zu suchen. Die Ergebnisse der Websuche, also Texte und Bilder, werden anschließend wieder an das VLM zurückgegeben. Das VLM integriert diese neuen Informationen und kann so eine fundierte Antwort auf die Benutzeranfrage generieren, selbst wenn das Bild dem System ursprünglich unbekannt war.
Um die Leistungsfähigkeit des Vision Search Assistant zu testen, wurden umfangreiche Experimente auf verschiedenen QA-Benchmarks durchgeführt. Sowohl bei Open-Set- als auch bei Closed-Set-Szenarien, also bei Fragen zu bekannten und unbekannten Bildern, übertraf der Vision Search Assistant bisherige Modelle deutlich. Diese Ergebnisse deuten darauf hin, dass der Ansatz ein vielversprechendes Potenzial für die Verbesserung multimodaler Suchmaschinen birgt.
Ein weiterer Vorteil des Vision Search Assistant ist seine breite Anwendbarkeit. Das Framework kann in bestehende VLMs integriert werden, ohne dass diese grundlegend verändert werden müssen. Dies erleichtert die Implementierung und ermöglicht eine schnelle Verbesserung der Suchfunktionen.
Der Vision Search Assistant stellt einen wichtigen Schritt in Richtung einer neuen Generation multimodaler Suchmaschinen dar. Durch die Kombination von VLMs und Web-Agents können Nutzer zukünftig noch effektiver nach visuellen Inhalten suchen und Informationen zu unbekannten Bildern erhalten. Die Weiterentwicklung dieses Ansatzes könnte die Art und Weise, wie wir mit visuellen Informationen im Internet interagieren, grundlegend verändern.
Bibliographie: - https://openreview.net/forum?id=PC5WxcMRs8 - https://openreview.net/pdf/57376d922f9bbeb0e5530e718a4ceaf5f542dc58.pdf - https://arxiv.org/abs/2309.07915 - https://arxiv.org/abs/2306.16529 - https://github.com/DirtyHarryLYL/LLM-in-Vision - https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models - https://huggingface.co/papers/2407.06581 - https://assets.amazon.science/93/45/4a317bb24e06a4aeedf188cc2f79/provla-compositional-image-search-with-progressive-vision-language-alignment-and-multimodal-fusion.pdf - https://huggingface.co/papers/2308.04152Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen