CanViT Ein neuer Ansatz für aktive Computer Vision

Kategorien:

No items found.

Freigegeben:

March 25, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

CanViT revolutioniert die aktive Computer Vision durch ein neuartiges Active-Vision Foundation Model (AVFM).
Das Modell ist auf effiziente, biologisch plausible Wahrnehmung durch sequentielle, lokalisierte Blicke ausgelegt.
CanViT ist aufgaben- und politikagnostisch und integriert einen retinotopischen Vision Transformer mit einem spatiotopischen, szenenweiten latenten Arbeitsbereich, dem "Canvas".
Ein neuartiger asymmetrischer Cross-Attention-Mechanismus, die "Canvas Attention", ermöglicht eine effiziente Interaktion mit dem Canvas.
Das Modell wurde mit einem label-freien Active-Vision-Vortrainingsschema auf einem umfangreichen Datensatz von 13,2 Millionen ImageNet-21k-Szenen und 1 Milliarde zufälliger Blicke trainiert.
CanViT-B übertrifft bestehende aktive Modelle bei der ADE20K-Segmentierung deutlich, mit geringerem Rechenaufwand und ohne Feinabstimmung.
Die Architektur ermöglicht eine niedrige Latenz bei sequenzieller Inferenz und Skalierbarkeit für große Szenen.

Die Landschaft der Künstlichen Intelligenz (KI) wird kontinuierlich durch innovative Forschung und Entwicklung geprägt. Ein aktueller Fortschritt, der das Potenzial hat, die Computer Vision maßgeblich zu beeinflussen, ist die Einführung von CanViT (Canvas Vision Transformer). Dieses Modell stellt das erste aufgaben- und politikagnostische Active-Vision Foundation Model (AVFM) dar und verspricht eine effizientere und biologisch plausiblere Wahrnehmung durch sequentielle, lokalisierte Blicke.

Die Herausforderung der aktiven Computer Vision

Die aktive Computer Vision, inspiriert von der menschlichen Wahrnehmung, zielt darauf ab, die Effizienz der Informationsverarbeitung durch selektive Aufmerksamkeit zu steigern. Anstatt eine gesamte Szene auf einmal zu verarbeiten, konzentriert sich ein aktives System auf relevante Bereiche durch eine Abfolge von "Blicken" oder "Glimpses". Dies ermöglicht eine ressourcenschonendere Analyse, birgt jedoch Herausforderungen bei der Entwicklung skalierbarer, allgemeingültiger Architekturen und Vortrainings-Pipelines. Bislang blieben Active-Vision Foundation Models (AVFMs), die eine breite Anwendbarkeit über verschiedene Aufgaben und Strategien hinweg bieten, weitgehend unerforscht.

CanViT: Ein Paradigmenwechsel in der Wahrnehmung

CanViT, entwickelt von Yohaï-Eliel Berreby, Sabrina Du, Audrey Durand und B. Suresh Krishna, schließt diese Lücke durch die Einführung einer neuartigen Architektur. Das Modell nutzt eine Kombination aus einem retinotopischen Vision Transformer-Backbone und einem spatiotopischen, szenenweiten latenten Arbeitsbereich, der als "Canvas" bezeichnet wird. Dieser Canvas dient als hochkapazitiver Arbeitsspeicher, in dem Informationen über die Zeit hinweg integriert werden.

Die Komponenten von CanViT

Die Kerninnovationen von CanViT liegen in der intelligenten Verknüpfung seiner Komponenten:

Retinotopischer Vision Transformer-Backbone: Dieser Teil des Modells ist für die Verarbeitung der visuellen Eingaben zuständig, die durch die "Blicke" erfasst werden. Die retinotopische Anordnung simuliert die Organisation der visuellen Informationen im Gehirn, wo benachbarte Punkte im Gesichtsfeld auch in benachbarten Bereichen der visuellen Kortex verarbeitet werden.
Spatiotopischer Canvas: Der Canvas ist ein szenenweiter, latenter Arbeitsbereich, der eine globale Repräsentation der Umgebung aufbaut und pflegt. Er dient als Gedächtnis des Systems, in das die Informationen aus den einzelnen Blicken integriert werden.
Canvas Attention: Dies ist ein neuartiger asymmetrischer Cross-Attention-Mechanismus, der eine effiziente Interaktion zwischen dem Vision Transformer-Backbone und dem Canvas ermöglicht. Er erlaubt dem System, relevante Informationen aus dem Canvas abzurufen, um neue Blicke zu interpretieren, und umgekehrt, neue Informationen in den Canvas zu integrieren. Ein entscheidender Aspekt ist die Trennung von "Denken" (auf Backbone-Ebene) und "Gedächtnis" (auf Canvas-Ebene), wodurch Canvas-seitige Self-Attention und vollständig verbundene Schichten eliminiert werden. Dies führt zu einer niedrigen Latenz bei sequenzieller Inferenz und einer hohen Skalierbarkeit für große Szenen.

Vortraining und Leistungsfähigkeit

Ein wesentlicher Aspekt von CanViT ist sein label-freies Active-Vision-Vortrainingsschema, bekannt als "policy-agnostic passive-to-active dense latent distillation". Bei diesem Ansatz rekonstruiert das Modell DINOv3-Embeddings von szenenweiten Informationen aus Sequenzen von niedrigauflösenden Blicken. Diese Blicke werden mit zufälligen Positionen, Zoomstufen und Längen generiert. Das Modell wurde auf einem enormen Datensatz von 13,2 Millionen ImageNet-21k-Szenen und 1 Milliarde zufälliger Blicke vortrainiert, was eine Größenordnung mehr ist als bei früheren aktiven Modellen. Dieser Prozess dauerte lediglich 166 Stunden auf einer einzigen H100-GPU.

Die Leistungsfähigkeit von CanViT-B wurde in verschiedenen Benchmarks unter Beweis gestellt:

ADE20K-Segmentierung: Ein eingefrorenes CanViT-B erreicht eine mIoU (mean Intersection over Union) von 38,5 % mit einem einzigen niedrigauflösenden Blick. Dies übertrifft das beste aktive Modell, das 27,6 % erreicht, bei 19,5-mal weniger Inferenz-FLOPs und ohne Feinabstimmung. Mit zusätzlichen Blicken steigt die mIoU von CanViT-B auf 45,9 %.
ImageNet-1k-Klassifizierung: CanViT-B erreicht eine Top-1-Genauigkeit von 81,2 % mit eingefrorenen Teacher-Probes.

Diese Ergebnisse zeigen, dass CanViT die deutliche Lücke zwischen passiver und aktiver Vision bei der semantischen Segmentierung schließen kann und das Potenzial von AVFMs als neues Forschungsfeld aufzeigt. Das Modell verallgemeinert sich gut auf längere Rollouts, größere Szenen und neue Strategien. Es ermöglicht zudem eine dicht gepackte Vision mit niedriger Latenz und hoher Auflösung, die auf handelsüblicher Hardware Hunderte von sequenziellen Bildern pro Sekunde verarbeiten kann.

Praktische Implikationen und Ausblick

Die Entwicklung von CanViT hat weitreichende Implikationen für B2B-Anwendungen, insbesondere in Bereichen, die eine effiziente und adaptive visuelle Wahrnehmung erfordern. Dazu gehören unter anderem:

Robotik und autonome Systeme: Eine verbesserte aktive Wahrnehmung kann Robotern helfen, ihre Umgebung effizienter zu erkunden und Aufgaben präziser auszuführen, indem sie sich auf relevante Details konzentrieren.
Industrielle Inspektion und Qualitätssicherung: Systeme, die mit CanViT ausgestattet sind, könnten komplexe Produkte oder Oberflächen schneller und genauer auf Defekte oder Anomalien prüfen, indem sie gezielt Bereiche von Interesse untersuchen.
Überwachung und Sicherheit: Die Fähigkeit, relevante Ereignisse in großen Szenen schnell zu identifizieren, könnte die Effizienz von Überwachungssystemen erheblich steigern.
Medizinische Bildanalyse: In der medizinischen Bildgebung könnte CanViT dazu beitragen, Ärzte bei der Analyse großer Datensätze zu unterstützen, indem es potenziell kritische Bereiche hervorhebt.

Die auf GitHub verfügbare PyTorch-Referenzimplementierung von CanViT bietet Entwicklern die Möglichkeit, das Modell zu nutzen und weiterzuentwickeln. Die Bereitstellung von vortrainierten Checkpoints, insbesondere auf Plattformen wie dem HuggingFace Hub, erleichtert den Einstieg und die Integration in bestehende Projekte.

Die Forschung zeigt, dass die Architektur von Foundation Models wie ViT auch in anderen Bereichen wie der visuellen Navigation (ViNT) und der effizienten Anpassung von Vision Foundation Models (ViT-Split) vielversprechende Ergebnisse liefert. CanViT reiht sich in diese Entwicklung ein und unterstreicht die Bedeutung von effizienten, skalierbaren und generalisierbaren Modellen für die Zukunft der KI.

Die kontinuierliche Weiterentwicklung von Foundation Models, wie CanViT, wird die Grenzen dessen verschieben, was in der Computer Vision möglich ist. Die Fähigkeit, komplexe visuelle Informationen auf eine Weise zu verarbeiten, die der menschlichen Wahrnehmung ähnelt, eröffnet neue Möglichkeiten für intelligente Systeme in einer Vielzahl von Branchen.

Bibliographie

- Berreby, Y.-E., Du, S., Durand, A., & Krishna, B. S. (2026). CanViT: Toward Active-Vision Foundation Models. arXiv. - Berreby, Y.-E., Du, S., Durand, A., & Krishna, B. S. (n.d.). CanViT (Canvas Vision Transformer) -- PyTorch. GitHub. - alphaXiv. (n.d.). Explore | alphaXiv. - Shah, D., Sridhar, A., Dashora, N., Stachowicz, K., Black, K., Hirose, N., & Levine, S. (2024). ViNT: A Foundation Model for Visual Navigation. arXiv. - Li, Y., Li, X., Li, T., He, W., Kong, Y., & Ren, L. (2025). ViT-Split: Unleashing the Power of Vision Foundation Models via Efficient Splitting Heads. ICCV. - Jia, Y., Liu, J., Chen, S., Gu, C., Wang, Z., Li, X., Luo, L., Wang, P., Zhang, R., Wang, Z., & Zhang, S. (2025). Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation. CVPR. - Yu, S., Kwak, S., Jang, H., Jeong, J., Huang, J., Shin, J., & Xie, S. (2025). Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think. OpenReview. - Wang, H., Tang, H., Jiang, L., Shi, S., Naeem, M. F., Li, H., Schiele, B., & Wang, L. (2024). GiT: Towards Generalist Vision Transformer through Universal Language Interface. arXiv. - Exa. (2026, February 22). PAGE AND PAPER. Exa.ai. - Exa. (2026, February 17). Canny Vision. Exa.ai.