Neues multimodales Visionsmodell Xray-Visual zur Verarbeitung von Bild- und Videodaten

Kategorien:

No items found.

Freigegeben:

February 26, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Xray-Visual ist ein multimodales Visionsmodell, das für die Verarbeitung großer Mengen von Bild- und Videodaten aus sozialen Medien entwickelt wurde.
Das Modell wurde auf über 15 Milliarden Bild-Text-Paaren und 10 Milliarden Video-Hashtag-Paaren von Facebook und Instagram trainiert.
Ein dreistufiges Trainingsverfahren, bestehend aus selbstüberwachtem Masked Autoencoding (MAE), semi-überwachter Hashtag-Klassifizierung und kontrastivem Lernen im CLIP-Stil, optimiert Bild- und Videomodalitäten.
Die Architektur basiert auf einem Vision Transformer (ViT)-Backbone, der durch effiziente Token-Reorganisation (EViT) verbessert wurde, um die Recheneffizienz zu steigern.
Xray-Visual erzielt in verschiedenen Benchmarks, darunter ImageNet, Kinetics und MSCOCO, eine hohe Leistung.
Die Integration großer Sprachmodelle (LLMs) als Text-Encoder (LLM2CLIP) verbessert die Retrieval-Leistung und Generalisierungsfähigkeit signifikant.
Das Modell zeigt eine hohe Robustheit gegenüber Domänenverschiebungen und adversariellen Störungen.
Effizienz wird durch Techniken wie Token Merging und progressive Auflösung erreicht, welche die Rechenlast reduzieren, während die Genauigkeit erhalten bleibt.
Praktische Anwendungen umfassen Empfehlungssysteme, die Erkennung von KI-generierten Inhalten und die semantische Indexierung.

Einleitung: Skalierung von Visionsmodellen auf Industriedaten

Die Fähigkeit von Künstlicher Intelligenz, visuelle Informationen zu verstehen und zu interpretieren, hat in den letzten Jahren erhebliche Fortschritte gemacht. Insbesondere im Bereich der Bild- und Videoverarbeitung sind durch innovative Architekturen und großskalige Vortrainingsmethoden bemerkenswerte Ergebnisse erzielt worden. Trotz dieser Entwicklungen bestehen weiterhin Herausforderungen bei der Skalierung von Visionsmodellen auf das Niveau und die Komplexität von Daten, die in industriellen Anwendungen anfallen. Ein Forschungsteam hat hierzu ein neues, einheitliches Visionsmodell namens Xray-Visual vorgestellt, das speziell für die Verarbeitung von Bild- und Videodaten im industriellen Maßstab, insbesondere aus sozialen Medien, konzipiert wurde.

Grundlagen von Xray-Visual: Eine einheitliche Architektur

Xray-Visual ist als eine einheitliche Visionsmodellarchitektur konzipiert, die sowohl Bilder als auch Videos verarbeiten kann. Der Kern dieser Architektur ist ein Vision Transformer (ViT)-Backbone, der durch eine effiziente Token-Reorganisation (EViT) ergänzt wird. Diese Erweiterung ermöglicht es dem Modell, höhere Eingangsauflösungen mit minimiertem Rechenaufwand zu verarbeiten, indem inattentive Tokens selektiv entfernt werden. Dies führt zu einer verbesserten Recheneffizienz, während die Genauigkeit erhalten bleibt. Die Fähigkeit, Bilder und Videos gemeinsam zu trainieren, ist ein zentrales Merkmal, da dies zu reichhaltigeren Repräsentationen führt und den Bereitstellungsaufwand reduziert, da ein einziges Modell für beide Modalitäten verwendet werden kann.

Datengrundlage und Kuratierung

Das Training von Xray-Visual stützt sich auf eine umfangreiche Datengrundlage, die aus über 15 Milliarden kuratierten Bild-Text-Paaren und 10 Milliarden Video-Hashtag-Paaren von Plattformen wie Facebook und Instagram besteht. Die Datenkuratierung umfasst robuste Pipelines, die Strategien zur Ausbalancierung und Rauschunterdrückung integrieren. Ziel ist es, die semantische Vielfalt zu maximieren und gleichzeitig das Rauschen in den Labels zu minimieren. Dies beinhaltet detaillierte Bereinigungsmaßnahmen für Bildunterschriften und Hashtags, wie die Entfernung von URLs, Emojis und nicht-semantischen Inhalten, sowie die Filterung nach englischsprachigen Inhalten. Für Videos wurde ein spezieller Datensatz namens URU erstellt, der sich auf Hashtags konzentriert, die relevantere visuelle und semantische Beschreibungen des Videoinhalts enthalten.

Dreistufiger Trainingsansatz

Das Training von Xray-Visual erfolgt in einem dreistufigen Prozess, der verschiedene Lernparadigmen kombiniert:

- Stufe 1: Selbstüberwachtes Masked Autoencoding (MAE)
In dieser Phase lernt das Modell visuelle Repräsentationen aus unbeschrifteten Bild- und Videodaten durch Rekonstruktion. Für Bilder werden 75 % der Patches maskiert, für Videos sogar 90 %. Das Modell wird darauf trainiert, die maskierten Bereiche zu rekonstruieren, wodurch es grundlegende visuelle Merkmale erlernt. - Stufe 2: Semi-überwachte Hashtag-Klassifizierung
Nach dem MAE-Vortraining wird das Modell durch Hashtag-Klassifizierung weiter verfeinert. Dieser semi-überwachte Ansatz nutzt die URU-Nomen-Hashtag-Datensätze, um objektzentrierte Repräsentationen zu lernen. - Stufe 3: Kontrastives Lernen im CLIP-Stil
Die letzte Stufe beinhaltet kontrastives Lernen im CLIP-Stil unter Verwendung von Bild- und Video-Bildunterschriften. Dies dient dazu, visuelle und textliche Repräsentationen aufeinander abzustimmen und die Generalisierungsfähigkeit zu verbessern. Hierbei werden sowohl ViSE-Daten mit Nutzer-Bildunterschriften als auch URU-Aktionsdaten für Videos verwendet, um sowohl objekt- als auch aktionsbezogene Konzepte zu erfassen.

Zusätzliche Ziele wie Denoising und SLIP (Self-supervision meets Language-Image Pre-training) verstärken die gelernten Merkmale weiter. Insbesondere der Ersatz von Standard-Text-Encodern durch große Sprachmodelle (LLMs) wie LLaMA-1b spielt eine Rolle für die Retrieval-Leistung in realen Umgebungen.

Leistung und Effizienz

Xray-Visual demonstriert eine hohe Leistung über eine Reihe von Benchmarks hinweg. Reinen Bildmodellen gelingt eine Genauigkeit von 89,3 % auf ImageNet, während die integrierte Bild-Video-Architektur 88,1 % auf ImageNet und 78,1 % auf Kinetics erreicht. Diese Ergebnisse werden bei geringeren Eingangsauflösungen (336 Pixel) und einem reduzierten Token-Einsatz (288 Tokens) im Vergleich zu anderen führenden Visionsmodellen erzielt.

Recheneffizienz

Ein wesentlicher Vorteil von Xray-Visual liegt in seiner Recheneffizienz. Das Modell erreicht eine bis zu vierfache Effizienzsteigerung im Vergleich zu Standard-Vision-Encodern, indem es nur 25 % der visuellen Tokens während der Verarbeitung nutzt. Diese Effizienz ermöglicht Skalierbarkeit und hohe Leistung, ohne die Genauigkeit zu beeinträchtigen.

Robustheit und Generalisierung

Das Modell zeigt eine starke Robustheit gegenüber Domänenverschiebungen und adversariellen Störungen. Dies wird durch die Integration von Denoising-Verlusten und die Nutzung von LLMs als Text-Encoder erreicht, was die Generalisierungsfähigkeiten, insbesondere in realen Umgebungen, signifikant verbessert. Die Fähigkeit, auch auf internen Benchmarks, die reale Szenarien abbilden, eine hohe Leistung zu erbringen, unterstreicht die praktische Anwendbarkeit des Modells.

Spezifische Optimierungen und Techniken

Progressive Auflösung und Token Merging

Um die Effizienz weiter zu steigern, setzt Xray-Visual auf progressive Auflösung und Token Merging. Das Training erfolgt in mehreren Phasen, beginnend mit niedrigeren Auflösungen und schrittweise steigend, um das Modell effizient an hochauflösende Eingaben anzupassen. Token Merging (ToMe) reduziert die Anzahl der verarbeiteten Tokens in verschiedenen Schichten des ViT-Backbones, was die Rechenkosten senkt. Bei Anwendung während der Inferenz führt dies zu minimalen Leistungseinbußen bei gleichzeitiger erheblicher Steigerung der Inferenzgeschwindigkeit.

LLM als Text-Encoder

Die Integration von großen Sprachmodellen (LLMs) wie LLaMA-1b als Text-Encoder im LLM2CLIP-Framework ist ein zentraler Aspekt zur Verbesserung der Retrieval-Leistung. Diese LLMs sind in der Lage, umfangreiche Textkorpora zu verarbeiten und komplexe Sequenzen zu handhaben, was zu reichhaltigeren linguistischen Repräsentationen und einer besseren semantischen Ausrichtung führt. Dies hat sich insbesondere bei internen Retrieval-Aufgaben als vorteilhaft erwiesen.

Denoising-Verlust und Augmentationen

Ein Denoising-Verlust wird in das Trainingsziel integriert, um den Trainingsprozess zu stabilisieren, robustere visuelle Repräsentationen zu fördern und die Skalierbarkeit bei zunehmender Anzahl von Trainingsbeispielen zu verbessern. Darüber hinaus kommt eine umfassende Datenaugmentations-Pipeline zum Einsatz, die etablierte Techniken mit domänenspezifischen Erweiterungen, wie der Gaußschen Weichzeichnung, kombiniert. Dies unterstützt die Generalisierungsfähigkeit des Modells, insbesondere bei variierenden Eingabequalitäten.

Praktische Anwendungen und Bereitstellung

Die Leistungsfähigkeit von Xray-Visual ermöglicht verschiedene praktische Anwendungen, insbesondere in industriellen Systemen. Das Modell dient als Komponente in Empfehlungssystemen, wo es relevante Videos basierend auf Eingabebildern oder -videos abruft. Weitere Einsatzgebiete sind bidirektionale Anzeigen-zu-Reels-Retrieval-Systeme und umfassende Anzeigen-zu-Anzeigen-Matching-Pipelines.

Optimierung für die Bereitstellung

Für eine skalierbare Bereitstellung werden Techniken wie die Dimensionalitätsreduktion und Quantisierung angewendet. Lineare Adapter können auf vortrainierten Embeddings trainiert werden, um eine schnelle aufgabenspezifische Anpassung zu ermöglichen. Die Reduzierung der Dimensionalität von Embeddings, beispielsweise auf 100 Dimensionen, kann die Kosten erheblich senken, auch wenn dies mit einem gewissen Leistungsabfall einhergehen kann. Quantisierungstechniken, die Embeddings auf int8-Genauigkeit reduzieren, bieten eine noch effizientere Speicherung und verringern den Leistungsabfall im Vergleich zur reinen Dimensionalitätsreduktion.

Semantische IDs

Die Generierung semantischer IDs aus den Embeddings spielt eine Rolle in Empfehlungssystemen. Diese diskreten Tokenizer, die mithilfe von VQVAE-V2-Varianten wie Residual Quantization und Product Quantization erstellt werden, ermöglichen es Modellen, auf ungesehene oder ähnliche Elemente zu generalisieren und hierarchische Inhaltsstrukturen zu erfassen. Dies fördert ein ausgewogenes Lernen und die Nutzung eines gemeinsamen Vokabulars.

Fazit

Xray-Visual stellt einen wichtigen Schritt in der Entwicklung skalierbarer, multimodaler Visionsmodelle dar. Durch die Kombination einer robusten Datenkuratierung, eines mehrstufigen Trainingsansatzes und effizienter Architekturoptimierungen erzielt das Modell eine hohe Leistung und Effizienz. Die Integration von LLMs als Text-Encoder und die Berücksichtigung realer Anwendungsfälle, wie die Robustheit gegenüber Domänenverschiebungen, unterstreichen das Potenzial von Xray-Visual für industrielle Anwendungen. Die kontinuierliche Forschung in Bereichen wie der Datenkuratierung, Modellarchitekturen und Trainingstechniken wird entscheidend sein, um die Grenzen des visuellen Verständnisses weiter zu verschieben und KI-Systeme zu entwickeln, die den Anforderungen komplexer realer Umgebungen gerecht werden.

Bibliography

- Mishra, S., Lin, T.-Y., Wang, L., Xu, H., Liu, Y., Hsu, M., Ahuja, C., Yuan, H., Cheng, J., Chen, H.-Y., Xu, H., Li, C., Awasthi, A., Moon, J., Husa, D., Ge, M., Singla, S., Chowdhury, A., Dingh, P., Shukla, S. N., Yang, Y., Jacobs, D., Guo, Q., Xiao, J., Fan, X., & Singh, A. (2026). Xray-Visual Models: Scaling Vision models on Industry Scale Data. https://arxiv.org/abs/2602.16918 - Hugging Face (2026). Xray-Visual Models: Scaling Vision models on Industry Scale Data. https://huggingface.co/papers/2602.16918 - Scientific Reports (2026). A lightweight multi-scale detection framework for X-ray images with supervised contrastive learning. https://www.nature.com/articles/s41598-026-38000-0 - Scientific Reports (2026). Efficient industrial point cloud anomaly detection via spatial context aggregation and selective anomalous feature generation. https://www.nature.com/articles/s41598-026-41255-2 - Scientific Reports (2026). An explainable vision transformer model with transfer learning for accurate bean leaf disease classification. https://www.nature.com/articles/s41598-026-41723-9 - DEV Community (2026). From Toy Model to DeepSeek Giant: The Innocence of x + f(x). https://dev.to/ryo_suwito/from-toy-model-to-deepseek-giant-the-innocence-of-x-fx-4peo