Die fotorealistische Rekonstruktion von Szenen mittels 3D Gaussian Splatting (3DGS) hat in den letzten Jahren große Fortschritte gemacht. Doch die Anwendung dieser Technologie auf stilisierte Szenen, wie sie beispielsweise in Spielen oder animierten Filmen vorkommen, stellt weiterhin eine Herausforderung dar. Probleme wie fragmentierte Texturen, semantische Fehlanpassungen und die begrenzte Anpassungsfähigkeit an abstrakte Ästhetik erschweren die stilisierte Darstellung. Ein neues Framework namens StyleMe3D verspricht nun, diese Hürden zu überwinden und 3DGS für künstlerische Anwendungen zu erschließen.
StyleMe3D verfolgt einen umfassenden Ansatz zur Stilübertragung in 3DGS. Das Framework integriert mehrere innovative Komponenten, um eine skalierbare, semantisch kohärente und perzeptuell optimierte Stilisierung zu erreichen. Kern dieses Ansatzes ist die Trennung von verschiedenen semantischen Ebenen mithilfe mehrerer spezialisierter Encoder. Diese Encoder konzentrieren sich auf unterschiedliche Aspekte der Szene, darunter der Stil, die visuelle Qualität und die semantische Bedeutung der einzelnen Elemente.
Vier neuartige Komponenten bilden das Herzstück von StyleMe3D:
1. Dynamic Style Score Distillation (DSSD): Diese Komponente nutzt den latenten Raum von Stable Diffusion, um eine semantische Ausrichtung zwischen dem gewünschten Stil und der 3D-Szene zu gewährleisten. Dadurch wird eine konsistente Stilübertragung ermöglicht.
2. Contrastive Style Descriptor (CSD): CSD ermöglicht eine lokalisierte, inhaltsabhängige Texturübertragung. Dadurch können Stilmerkmale präzise auf bestimmte Bereiche der Szene angewendet werden, was zu einer realistischeren und kohärenteren Stilisierung führt.
3. Simultaneously Optimized Scale (SOS): Diese Komponente entkoppelt Stildetails von der strukturellen Kohärenz der Szene. Dadurch können feine Stilmerkmale hinzugefügt werden, ohne die geometrische Integrität der 3D-Szene zu beeinträchtigen.
4. 3D Gaussian Quality Assessment (3DG-QA): 3DG-QA ist eine differenzierbare ästhetische Prior, die auf menschlich bewerteten Daten trainiert wurde. Diese Komponente dient dazu, Artefakte zu unterdrücken und die visuelle Harmonie der stilisierten Szene zu verbessern.
StyleMe3D wurde anhand des synthetischen NeRF-Datensatzes (Objekte) und des tandt db-Datensatzes (Szenen) evaluiert. Die Ergebnisse zeigen, dass StyleMe3D im Vergleich zu bestehenden Methoden die geometrischen Details besser erhält und eine höhere stilistische Konsistenz über die gesamte Szene hinweg gewährleistet. Gleichzeitig ermöglicht StyleMe3D Echtzeit-Rendering, was es für den Einsatz in interaktiven Anwendungen besonders attraktiv macht.
Die Anwendungsmöglichkeiten von StyleMe3D sind vielfältig und reichen von Spielen und virtuellen Welten bis hin zur digitalen Kunst. Durch die Verbindung von fotorealistischem 3DGS mit künstlerischer Stilisierung eröffnet StyleMe3D neue Möglichkeiten für kreative Gestaltung und innovative Anwendungen in verschiedenen Bereichen.
Bibliographie: - https://chatpaper.com/chatpaper/?id=4&date=1745251200&page=1 - https://www.xueshuxiangzi.com/redirect?page=cs.CV&pno=0 - arxiv:2504.15281 - StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians, Hugging Face Papers