Neues Framework zur Generierung geometriefreier 360°-Panoramen aus Bildern und Videos

Kategorien:

No items found.

Freigegeben:

January 23, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

"360Anything" ist ein neues Framework, das perspektivische Bilder und Videos ohne explizite Kamerageometrie in 360°-Panoramen umwandelt.
Es nutzt vortrainierte Diffusionstransformatoren, um die Transformation datengesteuert zu lernen.
Ein zentraler Aspekt ist die "Circular Latent Encoding"-Technik, die Nahtartefakte in den generierten Panoramen eliminiert.
Das Framework erreicht nachweislich eine hohe Qualität bei der Generierung von 360°-Bildern und -Videos und übertrifft bestehende Methoden, die Kamerametadaten verwenden.
Zusätzlich kann "360Anything" Kamerakalibrierungsparameter wie das Sichtfeld und die Ausrichtung aus einem einzigen Bild oder Video ableiten.
Die generierten 360°-Videos ermöglichen konsistente 3D-Szenenrekonstruktionen, was für Anwendungen in AR/VR und Robotik relevant ist.

Die Generierung immersiver 3D-Welten aus herkömmlichen 2D-Bildern und -Videos stellt eine signifikante Herausforderung in der Computer Vision dar. Traditionelle Ansätze zur Umwandlung perspektivischer Ansichten in 360°-Panoramen erforderten oft präzise Kamerametadaten, wie etwa das Sichtfeld (Field-of-View, FoV) und die Kameraausrichtung. Diese Abhängigkeit schränkte die Anwendbarkeit auf "In-the-wild"-Daten erheblich ein, da solche Kalibrierungsinformationen in realen Szenarien selten verfügbar oder verlässlich sind. Eine aktuelle Entwicklung namens "360Anything" adressiert diese Problematik durch einen neuartigen, geometriefreien Ansatz.

Ein Paradigmenwechsel: Geometriefreie 360°-Generierung

Das von Forschenden entwickelte Framework "360Anything" stellt einen Fortschritt in der Generierung von 360°-Panoramen aus Standardbildern und -videos dar. Im Kern verzichtet es auf die explizite geometrische Ausrichtung zwischen der perspektivischen Eingabe und dem äquirektangulären Projektionsraum (ERP), die bei vielen früheren Methoden notwendig war. Stattdessen nutzt "360Anything" vortrainierte Diffusionstransformatoren (DiT), um die komplexe Abbildung von perspektivischen Eingaben zu äquirektangulären Panoramen auf rein datengesteuerte Weise zu erlernen. Dies eliminiert die Notwendigkeit bekannter Kamerametadaten und erweitert die Anwendbarkeit auf eine breitere Palette von "In-the-wild"-Daten.

Die Rolle von Diffusionstransformatoren

Diffusionstransformatoren, die für ihre Leistungsfähigkeit in generativen Modellen bekannt sind, bilden die architektonische Grundlage von "360Anything". Durch die Behandlung sowohl der perspektivischen Eingabe als auch des Panorama-Ziels als einfache Token-Sequenzen kann das Modell die geometrischen Beziehungen implizit erlernen. Dies ermöglicht es "360Anything", die perspektivische Eingabe effektiv auf einer 360°-Leinwand zu "platzieren" und den umgebenden Kontext zu synthetisieren, selbst bei variierenden Sichtfeldern und Kameraausrichtungen. Der end-to-end-Ansatz des Systems vereinfacht den Workflow erheblich und skaliert besser mit größeren Modellen und Datensätzen.

Eliminierung von Nahtartefakten durch "Circular Latent Encoding"

Ein wiederkehrendes Problem bei der Panoramagenerierung sind sichtbare Nahtartefakte an den Übergängen von äquirektangulären Projektionen. Bisherige Lösungsansätze konzentrierten sich oft auf Tricks während der Inferenzphase, wie z.B. Rotationsaugmentierungen. "360Anything" identifiziert die Ursache dieser Artefakte jedoch in der Trainingsphase. Moderne Diffusionsmodelle arbeiten häufig im latenten Raum eines konvolutionsbasierten VAE (Variational Autoencoder). Hierbei führt die Zero-Padding in den Faltungsschichten zu Diskontinuitäten in der latenten Repräsentation von Panoramadaten. Um dies zu beheben, führt "360Anything" die "Circular Latent Encoding"-Technik ein. Dabei werden vor der Enkodierung Spalten vom linken und rechten Rand des Panoramas abgeschnitten und auf die gegenüberliegende Seite angefügt, um eine zirkuläre Kontinuität zu gewährleisten. Nach der Enkodierung werden die Latents der gepaddeten Regionen wieder entfernt. Dieser Ansatz erzeugt einen nahtfreien latenten Raum und führt zu qualitativ hochwertigeren, nahtlosen Panoramen.

Leistungsfähigkeit und Anwendungen

Die Leistungsfähigkeit von "360Anything" wurde in umfangreichen Experimenten evaluiert und zeigt eine signifikante Überlegenheit gegenüber bestehenden Methoden in mehreren Bereichen:

Panoramabilderzeugung

Bei der Generierung von 360°-Panoramabildern auf Datensätzen wie Laval Indoor und SUN360 übertrifft "360Anything" die Konkurrenz in den meisten Metriken, einschließlich FID (Fréchet Inception Distance), KID (Kernel Inception Distance) und FAED (FID on features of an auto-encoder fine-tuned on panorama images). Insbesondere die Reduktion des FAED-Fehlers um fast 50 % im Vergleich zum bisherigen Stand der Technik unterstreicht die verbesserte Qualität und Geometrie der generierten 360°-Bilder. Auch der CLIP-Score, der die Textausrichtung misst, ist bei "360Anything" am höchsten.

Panoramavideogenerierung

Auch im Bereich der Panoramavideogenerierung setzt "360Anything" neue Maßstäbe. Auf etablierten Datensätzen erzielt es bessere PSNR- (Peak Signal-to-Noise Ratio) und LPIPS-Werte (Learned Perceptual Image Patch Similarity) als frühere Ansätze, was auf eine bessere Erhaltung des ursprünglichen perspektivischen Videos im Output hindeutet. Die deutlich niedrigeren FVD-Werte (Fréchet Video Distance) deuten auf natürlichere sphärische Verzerrungen im ERP-Format hin. Die VBench-Metriken (Imaging Quality, Aesthetic Quality, Motion Smoothness) bestätigen die überlegene visuelle und Bewegungsqualität.

Kamerakalibrierung aus einem einzigen Bild

Ein bemerkenswertes Ergebnis ist die Fähigkeit von "360Anything", Kamerakalibrierungsparameter wie das Sichtfeld und die Kameraausrichtung (Roll- und Pitch-Winkel) aus einem einzigen Bild zu schätzen. Obwohl das Modell nicht explizit für 3D-Verständnisaufgaben trainiert wurde und hauptsächlich auf synthetischen Innenszenen basiert, erreicht es bei der FoV-Schätzung auf Datensätzen wie NYUv2, ETH3D und iBims-1 eine hohe Genauigkeit, die mit spezialisierten, überwachten Baselines vergleichbar ist oder diese übertrifft. Ähnlich gute Ergebnisse werden bei der Schätzung der Kameraausrichtung auf den Datensätzen MegaDepth und LaMAR erzielt, wobei "360Anything" nur geringfügig hinter dem aktuellen Stand der Technik zurückbleibt. Dies demonstriert ein tiefes geometrisches Verständnis des Modells.

3D-Szenenrekonstruktion

Die generierten 360°-Videos ermöglichen zudem eine konsistente 3D-Szenenrekonstruktion. Durch die Destillation der Panoramavideos in ein 3D Gaussian Splat (3DGS) können detaillierte 3D-Modelle von statischen Szenen erstellt werden. Dies liefert ausreichend geometrische Informationen für die 3D-Rekonstruktion und ermöglicht eine freie Erkundung der rekonstruierten Szene, was die starke geometrische Konsistenz des Outputs unterstreicht. Diese Fähigkeit ist besonders relevant für Anwendungen in der erweiterten Realität (AR), virtuellen Realität (VR) und Robotik.

Technische Details und Optimierungen

Das Framework basiert auf der Feinabstimmung von leistungsstarken, offenen Text-zu-Bild- und Text-zu-Video-Diffusionstransformatoren wie FLUX.1-dev und Wan2.1-14B. Die Implementierung umfasst den Adam-Optimierer und spezifische Lernraten sowie Batch-Größen. Für die Inferenz werden eine festgelegte Anzahl von Sampling-Schritten und Timestep-Shifting-Parameter verwendet. Zur Verbesserung der Robustheit gegenüber unterschiedlichen Kameraeinstellungen wird ein breites Spektrum an FoVs, Pitch- und Roll-Winkeln während des Trainings zufällig gesampelt.

Umgang mit Videodaten und Kanonisierung

Bei Videodaten wird eine zweistufige Kanonisierungspipeline angewendet. Zunächst werden mittels COLMAP Kamerahaltungen pro Frame geschätzt, um eine Stabilisierung des Videos zu erreichen. Anschließend wird die globale Schwerkraftrichtung des stabilisierten Videos mittels GeoCalib geschätzt und das Video so ausgerichtet, dass die Schwerkraftachse mit der vertikalen Achse übereinstimmt. Dieser Prozess stellt sicher, dass das Modell auf konsistenten, schwerkraftausgerichteten Daten trainiert wird und somit kanonische Videos generiert.

Fazit und Ausblick

"360Anything" repräsentiert einen bedeutsamen Schritt in der Entwicklung von generativen Modellen für immersive Medien. Durch den geometriefreien Ansatz, die effektive Nutzung von Diffusionstransformatoren und die innovative "Circular Latent Encoding"-Technik überwindet es zentrale Herausforderungen bei der Erstellung hochwertiger 360°-Panoramen aus herkömmlichen Bildern und Videos. Die Fähigkeit zur impliziten Kamerakalibrierung und 3D-Szenenrekonstruktion eröffnet neue Möglichkeiten für eine Vielzahl von Anwendungen in der Industrie und Forschung. Zukünftige Arbeiten könnten die Skalierung auf längere Videos und die Verbesserung der Auflösung durch spezialisierte Panorama-Upsampling-Techniken umfassen, um das volle Potenzial dieser Technologie auszuschöpfen.

Bibliographie

- Wu, Z., Watson, D., Tagliasacchi, A., Fleet, D. J., Brubaker, M. A., & Saxena, S. (2026). 360Anything: Geometry-Free Lifting of Images and Videos to 360°. arXiv preprint arXiv:2601.16192. - 360Anything Project Page: https://360anything.github.io/ - Luo, R., Wallingford, M., Farhadi, A., Snavely, N., & Ma, W.-C. (2025). Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos. arXiv preprint arXiv:2504.07940. - Hugging Face Daily Papers: https://huggingface.co/papers - ChatPaper: Explore and AI Chat with the Academic Papers: https://chatpaper.com/zh-CN?id=4&date=1769097600&page=1 - Computer Vision and Pattern Recognition (cs.CV) on arXiv: https://arxiv.org/list/cs.CV/recent