Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung immersiver 3D-Welten aus herkömmlichen 2D-Bildern und -Videos stellt eine signifikante Herausforderung in der Computer Vision dar. Traditionelle Ansätze zur Umwandlung perspektivischer Ansichten in 360°-Panoramen erforderten oft präzise Kamerametadaten, wie etwa das Sichtfeld (Field-of-View, FoV) und die Kameraausrichtung. Diese Abhängigkeit schränkte die Anwendbarkeit auf "In-the-wild"-Daten erheblich ein, da solche Kalibrierungsinformationen in realen Szenarien selten verfügbar oder verlässlich sind. Eine aktuelle Entwicklung namens "360Anything" adressiert diese Problematik durch einen neuartigen, geometriefreien Ansatz.
Das von Forschenden entwickelte Framework "360Anything" stellt einen Fortschritt in der Generierung von 360°-Panoramen aus Standardbildern und -videos dar. Im Kern verzichtet es auf die explizite geometrische Ausrichtung zwischen der perspektivischen Eingabe und dem äquirektangulären Projektionsraum (ERP), die bei vielen früheren Methoden notwendig war. Stattdessen nutzt "360Anything" vortrainierte Diffusionstransformatoren (DiT), um die komplexe Abbildung von perspektivischen Eingaben zu äquirektangulären Panoramen auf rein datengesteuerte Weise zu erlernen. Dies eliminiert die Notwendigkeit bekannter Kamerametadaten und erweitert die Anwendbarkeit auf eine breitere Palette von "In-the-wild"-Daten.
Diffusionstransformatoren, die für ihre Leistungsfähigkeit in generativen Modellen bekannt sind, bilden die architektonische Grundlage von "360Anything". Durch die Behandlung sowohl der perspektivischen Eingabe als auch des Panorama-Ziels als einfache Token-Sequenzen kann das Modell die geometrischen Beziehungen implizit erlernen. Dies ermöglicht es "360Anything", die perspektivische Eingabe effektiv auf einer 360°-Leinwand zu "platzieren" und den umgebenden Kontext zu synthetisieren, selbst bei variierenden Sichtfeldern und Kameraausrichtungen. Der end-to-end-Ansatz des Systems vereinfacht den Workflow erheblich und skaliert besser mit größeren Modellen und Datensätzen.
Ein wiederkehrendes Problem bei der Panoramagenerierung sind sichtbare Nahtartefakte an den Übergängen von äquirektangulären Projektionen. Bisherige Lösungsansätze konzentrierten sich oft auf Tricks während der Inferenzphase, wie z.B. Rotationsaugmentierungen. "360Anything" identifiziert die Ursache dieser Artefakte jedoch in der Trainingsphase. Moderne Diffusionsmodelle arbeiten häufig im latenten Raum eines konvolutionsbasierten VAE (Variational Autoencoder). Hierbei führt die Zero-Padding in den Faltungsschichten zu Diskontinuitäten in der latenten Repräsentation von Panoramadaten. Um dies zu beheben, führt "360Anything" die "Circular Latent Encoding"-Technik ein. Dabei werden vor der Enkodierung Spalten vom linken und rechten Rand des Panoramas abgeschnitten und auf die gegenüberliegende Seite angefügt, um eine zirkuläre Kontinuität zu gewährleisten. Nach der Enkodierung werden die Latents der gepaddeten Regionen wieder entfernt. Dieser Ansatz erzeugt einen nahtfreien latenten Raum und führt zu qualitativ hochwertigeren, nahtlosen Panoramen.
Die Leistungsfähigkeit von "360Anything" wurde in umfangreichen Experimenten evaluiert und zeigt eine signifikante Überlegenheit gegenüber bestehenden Methoden in mehreren Bereichen:
Bei der Generierung von 360°-Panoramabildern auf Datensätzen wie Laval Indoor und SUN360 übertrifft "360Anything" die Konkurrenz in den meisten Metriken, einschließlich FID (Fréchet Inception Distance), KID (Kernel Inception Distance) und FAED (FID on features of an auto-encoder fine-tuned on panorama images). Insbesondere die Reduktion des FAED-Fehlers um fast 50 % im Vergleich zum bisherigen Stand der Technik unterstreicht die verbesserte Qualität und Geometrie der generierten 360°-Bilder. Auch der CLIP-Score, der die Textausrichtung misst, ist bei "360Anything" am höchsten.
Auch im Bereich der Panoramavideogenerierung setzt "360Anything" neue Maßstäbe. Auf etablierten Datensätzen erzielt es bessere PSNR- (Peak Signal-to-Noise Ratio) und LPIPS-Werte (Learned Perceptual Image Patch Similarity) als frühere Ansätze, was auf eine bessere Erhaltung des ursprünglichen perspektivischen Videos im Output hindeutet. Die deutlich niedrigeren FVD-Werte (Fréchet Video Distance) deuten auf natürlichere sphärische Verzerrungen im ERP-Format hin. Die VBench-Metriken (Imaging Quality, Aesthetic Quality, Motion Smoothness) bestätigen die überlegene visuelle und Bewegungsqualität.
Ein bemerkenswertes Ergebnis ist die Fähigkeit von "360Anything", Kamerakalibrierungsparameter wie das Sichtfeld und die Kameraausrichtung (Roll- und Pitch-Winkel) aus einem einzigen Bild zu schätzen. Obwohl das Modell nicht explizit für 3D-Verständnisaufgaben trainiert wurde und hauptsächlich auf synthetischen Innenszenen basiert, erreicht es bei der FoV-Schätzung auf Datensätzen wie NYUv2, ETH3D und iBims-1 eine hohe Genauigkeit, die mit spezialisierten, überwachten Baselines vergleichbar ist oder diese übertrifft. Ähnlich gute Ergebnisse werden bei der Schätzung der Kameraausrichtung auf den Datensätzen MegaDepth und LaMAR erzielt, wobei "360Anything" nur geringfügig hinter dem aktuellen Stand der Technik zurückbleibt. Dies demonstriert ein tiefes geometrisches Verständnis des Modells.
Die generierten 360°-Videos ermöglichen zudem eine konsistente 3D-Szenenrekonstruktion. Durch die Destillation der Panoramavideos in ein 3D Gaussian Splat (3DGS) können detaillierte 3D-Modelle von statischen Szenen erstellt werden. Dies liefert ausreichend geometrische Informationen für die 3D-Rekonstruktion und ermöglicht eine freie Erkundung der rekonstruierten Szene, was die starke geometrische Konsistenz des Outputs unterstreicht. Diese Fähigkeit ist besonders relevant für Anwendungen in der erweiterten Realität (AR), virtuellen Realität (VR) und Robotik.
Das Framework basiert auf der Feinabstimmung von leistungsstarken, offenen Text-zu-Bild- und Text-zu-Video-Diffusionstransformatoren wie FLUX.1-dev und Wan2.1-14B. Die Implementierung umfasst den Adam-Optimierer und spezifische Lernraten sowie Batch-Größen. Für die Inferenz werden eine festgelegte Anzahl von Sampling-Schritten und Timestep-Shifting-Parameter verwendet. Zur Verbesserung der Robustheit gegenüber unterschiedlichen Kameraeinstellungen wird ein breites Spektrum an FoVs, Pitch- und Roll-Winkeln während des Trainings zufällig gesampelt.
Bei Videodaten wird eine zweistufige Kanonisierungspipeline angewendet. Zunächst werden mittels COLMAP Kamerahaltungen pro Frame geschätzt, um eine Stabilisierung des Videos zu erreichen. Anschließend wird die globale Schwerkraftrichtung des stabilisierten Videos mittels GeoCalib geschätzt und das Video so ausgerichtet, dass die Schwerkraftachse mit der vertikalen Achse übereinstimmt. Dieser Prozess stellt sicher, dass das Modell auf konsistenten, schwerkraftausgerichteten Daten trainiert wird und somit kanonische Videos generiert.
"360Anything" repräsentiert einen bedeutsamen Schritt in der Entwicklung von generativen Modellen für immersive Medien. Durch den geometriefreien Ansatz, die effektive Nutzung von Diffusionstransformatoren und die innovative "Circular Latent Encoding"-Technik überwindet es zentrale Herausforderungen bei der Erstellung hochwertiger 360°-Panoramen aus herkömmlichen Bildern und Videos. Die Fähigkeit zur impliziten Kamerakalibrierung und 3D-Szenenrekonstruktion eröffnet neue Möglichkeiten für eine Vielzahl von Anwendungen in der Industrie und Forschung. Zukünftige Arbeiten könnten die Skalierung auf längere Videos und die Verbesserung der Auflösung durch spezialisierte Panorama-Upsampling-Techniken umfassen, um das volle Potenzial dieser Technologie auszuschöpfen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen