Das Wichtigste in Kürze
- Diffusionmodelle stoßen bei der Generierung hochauflösender Bilder an Grenzen, da direkte Ansätze langsam und ressourcenintensiv sind.
- Der Latent Upscaler Adapter (LUA) ermöglicht eine effiziente Hochskalierung direkt im latenten Raum, bevor das Bild dekodiert wird.
- LUA integriert sich nahtlos in bestehende Pipelines, ohne Modifikationen am Basismodell oder zusätzliche Diffusionsstufen zu erfordern.
- Ein dreistufiges Trainingscurriculum, das sowohl latente als auch pixelbasierte Optimierung umfasst, gewährleistet hohe Bildqualität und Detailtreue.
- LUA zeigt eine starke Generalisierungsfähigkeit über verschiedene VAEs und Skalierungsfaktoren hinweg, was die Implementierung vereinfacht.
- Die Methode erreicht vergleichbare oder bessere visuelle Qualität bei deutlich geringerer Latenz im Vergleich zu etablierten Hochskalierungsverfahren.
Effizienzsteigerung in der Bildsynthese: Der Latent Upscaler Adapter für Diffusionsmodelle
Die Generierung hochauflösender Bilder mittels Diffusionmodellen stellt eine zentrale Herausforderung in der aktuellen Forschung dar. Während diese Modelle die Bildsynthese revolutioniert haben, stoßen sie bei der Skalierung über ihre Trainingsauflösungen hinaus oft an technische und rechnerische Grenzen. Eine neue Entwicklung, der Latent Upscaler Adapter (LUA), bietet hier einen vielversprechenden Ansatz, indem er die Superauflösung direkt im latenten Raum vornimmt und so Effizienz und Bildqualität signifikant verbessert.
Die Herausforderung der Hochauflösung in Diffusionsmodellen
Diffusionmodelle, insbesondere Latent Diffusion Models (LDMs), haben sich als leistungsstarke Werkzeuge für die Bildgenerierung, -bearbeitung und -übersetzung etabliert. Ihre Leistungsfähigkeit ist jedoch typischerweise an die Auflösungen gebunden, mit denen sie trainiert wurden, meist 512x512 oder 1024x1024 Pixel. Eine direkte Generierung jenseits dieser Auflösungen führt oft zu unerwünschten Artefakten wie Texturwiederholungen, geometrischen Verzerrungen oder einem Verlust der semantischen Kohärenz. Zwar können ein erneutes Training oder Feinabstimmungen bei höheren Auflösungen diese Probleme mindern, doch erfordern solche Maßnahmen erhebliche Rechenressourcen und große Datensätze, was ihre praktische Anwendbarkeit einschränkt.
Alternativ wird häufig die Strategie verfolgt, Bilder zunächst in nativer Auflösung zu generieren und anschließend eine Superauflösung (SR) anzuwenden. Hierbei existieren prinzipiell zwei Hauptansätze:
- Pixelbasierte Superauflösung: Diese Methoden wenden externe SR-Modelle auf die bereits dekodierten Bilder an. Obwohl sie in der Regel unkompliziert zu implementieren sind, arbeiten sie in voller räumlicher Auflösung, was zu einem quadratischen Anstieg der Rechenkosten und des Speicherbedarfs führt. Zudem können sie Artefakte wie Glättung, Rauschen oder semantische Verschiebungen hervorrufen, da sie ausschließlich auf Pixelinformationen basieren.
- Latentbasierte Superauflösung: Dieser Ansatz skaliert die komprimierte latente Darstellung vor der Dekodierung hoch. Dies bietet potenziell erhebliche Effizienzgewinne und eine bessere Erhaltung der semantischen Struktur. Bestehende latentbasierte Verfahren wie DemoFusion oder LSRNA erfordern jedoch oft zusätzliche Diffusionsstufen, Hilfsmechanismen oder sind eng an spezifische VAEs gekoppelt, was die Inferenzlatenz erhöht und die Generalisierbarkeit über verschiedene Modellfamilien hinweg begrenzt.
Die zentrale Herausforderung besteht darin, eine Methode zu entwickeln, die die Auflösung effizient steigert, die Mannigfaltigkeitsgeometrie gültiger Latenten bewahrt und hochfrequente Details für eine fotorealistische Dekodierung erhält, ohne zusätzliche Diffusionsschritte einzuführen.
Der Latent Upscaler Adapter (LUA): Eine innovative Lösung
Der Latent Upscaler Adapter (LUA) wurde entwickelt, um diese Herausforderungen zu adressieren. Es handelt sich um ein leichtgewichtiges Modul, das als "Drop-in"-Komponente zwischen dem vortrainierten Generator und dem eingefrorenen VAE-Decoder platziert wird. Anstatt das gesamte Diffusionsmodell neu zu trainieren oder zusätzliche Diffusionsstufen hinzuzufügen, führt LUA die Superauflösung direkt im latenten Raum durch.
Funktionsweise und Architektur
Gegeben sei ein latenter Code z, der vom Generator erzeugt wird. LUA prognostiziert eine hochskalierte Version z für Skalierungsfaktoren von 2x oder 4x. Dieser hochskalierte latente Code wird dann einmalig durch den VAE-Decoder in ein hochauflösendes Bild dekodiert. Dieser Ansatz profitiert von der inhärenten räumlichen Expansion des VAE (typischerweise mit einem Stride von 8), wodurch eine 2x latente Hochskalierung zu einer 16-fachen Erhöhung der Pixelanzahl führt, ohne zusätzliche Denoising-Schritte zu erfordern. Durch den Betrieb im latenten Raum reduziert LUA die Rechenlast im Vergleich zur pixelbasierten SR, die alle Ausgabepixel verarbeiten muss, um einen Faktor von etwa 64.
LUA nutzt ein gemeinsames SwinIR-ähnliches Transformer-Backbone, das für die Superauflösung im RGB-Raum effektiv ist und sich gut an latente Domänenadaptionen anpasst. Dieses Backbone extrahiert hierarchische Merkmale mittels fensterbasierter Selbstaufmerksamkeit, wodurch sowohl weitreichende Abhängigkeiten als auch räumliche Lokalität erhalten bleiben – eine Struktur, die gut zu den statistischen Eigenschaften von VAE-Latenten passt. Anstelle impliziter koordinatenbasierter Decoder (wie LIIF) verwendet LUA explizite SR-Köpfe. Diese bestehen aus flachen Faltungen, gefolgt von Pixel-Shuffle-Operationen, die die hochfrequente latente Mikrostruktur besser bewahren, welche für scharfe Texturen bei der Dekodierung entscheidend ist. Dieses Design ermöglicht die Unterstützung mehrerer Skalierungsfaktoren innerhalb eines einheitlichen Rahmens: Während der Inferenz wird das gemeinsame Backbone einmal ausgeführt, und der entsprechende Kopf wird basierend auf dem gewünschten Skalierungsfaktor aktiviert.
Cross-VAE-Generalisierung
Eine weitere Innovation des LUA ist seine Fähigkeit zur Cross-VAE-Generalisierung. LUA kann an verschiedene Modelle wie SDXL (mit 4 Kanälen), SD3 und FLUX (mit 16 Kanälen) angepasst werden, indem lediglich die erste Faltungsschicht modifiziert wird, um die Eingabekanaldimensionen anzupassen. Darauf folgt ein minimales Fine-Tuning an einem kleinen Satz von Latenten des Zielmodells. Das Backbone und die Skalenköpfe bleiben dabei unverändert. Diese Flexibilität ermöglicht eine schnelle Implementierung über verschiedene Architekturen hinweg, ohne ein vollständiges Neutraining erforderlich zu machen, was die Praktikabilität in Multi-Modell-Umgebungen erhöht.
Multi-Stage Trainingsstrategie für optimale Qualität
Um eine hochfidele latente Hochskalierung zu gewährleisten, wurde für LUA ein progressives, dreistufiges Trainingscurriculum entwickelt, das die latente Struktur und das dekodierte Erscheinungsbild gemeinsam optimiert. Eine rein latente oder rein pixelbasierte Optimierung ist unzureichend:
- Stufe I – Strukturelle Ausrichtung im latenten Raum: In dieser Phase lernt das Modell, die hochauflösende latente Struktur und spektrale Eigenschaften abzugleichen. Der Verlust kombiniert eine elementweise Rekonstruktion (L1-Verlust) mit einer Ausrichtung der Frequenzbereichsgrößen mittels 2D-FFT, um die Mikrostruktur zu bewahren. Diese Stufe stabilisiert die latente Abbildung und verhindert eine Überglättung.
- Stufe II – Gemeinsame Latent-Pixel-Konsistenz: Diese Stufe verbindet die latente Fidelität mit dem dekodierten Erscheinungsbild, indem Bildbereichsbeschränkungen integriert werden. Zusätzlich zu den Verlusten aus Stufe I werden Terme hinzugefügt, die die Konsistenz des Erscheinungsbilds nach bikubischem Downsampling erzwingen und hochfrequente Residuen (z.B. Kanten und Texturen) betonen, indem sie geschärfte Versionen der vorhergesagten und der Ground-Truth-Bilder vergleichen. Dies überbrückt die Lücke zwischen latenter Genauigkeit und wahrnehmbarer Qualität.
- Stufe III – Kantenbewusste Bildverfeinerung: Die finale Stufe führt eine kantenbewusste Verfeinerung direkt im Pixelraum durch. Hierbei kommt ein kantenlokalisierter Gradientenverlust zum Einsatz, der Grenzen schärft und Gitterartefakte unterdrückt, ohne Rauschen einzuführen. Diese letzte Stufe optimiert die visuelle Qualität, während notwendige hochfrequente Inhalte erhalten bleiben.
Experimentelle Ergebnisse und Leistungsbewertung
Die Autoren haben LUA auf dem OpenImages-Datensatz evaluiert und mit etablierten Baselines wie ScaleCrafter, HiDiffusion, DemoFusion, LSRNA–DemoFusion, SDXL (Direkt) und SDXL+SwinIR verglichen. Als Metriken für die Bildqualität dienten FID, KID und CLIP für globale Fidelität und Textausrichtung, sowie patchbasierte Varianten (pFID/pKID) zur Bewertung feiner Details. Die Leistung wurde zudem anhand der Wall-Clock-Latenz auf einer einzelnen GPU gemessen.
Quantitative Analyse
Die quantitativen Ergebnisse zeigen, dass LUA bei Auflösungen über 1024x1024 Pixel durchweg sowohl in Bezug auf Qualität als auch Geschwindigkeit besser abschneidet als konkurrierende Ansätze. Bei 2048x2048 Pixeln erreicht SDXL+LUA beispielsweise eine FID von 180.80, pFID von 97.90 und einen CLIP-Wert von 0.764 in nur 3.52 Sekunden. Dies übertrifft SDXL+SwinIR deutlich (6.29 s) und unterbietet mehrstufige Methoden wie LSRNA–DemoFusion drastisch (20.77 s). Bei 4096x4096 Pixeln erzielt LUA mit einer Laufzeit von nur 6.87 Sekunden neue Bestwerte für die Fidelität bei Einzeldurchläufen (FID 176.90, pFID 61.80), übertrifft die pixelbasierte SR (7.29 s) und vermeidet den Qualitätsabfall der direkten Hochauflösungsgenerierung (FID 280.42). Obwohl LUA einen leicht höheren pKID-Wert als LSRNA–DemoFusion aufweist, bietet die um Größenordnungen niedrigere Latenz von LUA einen überlegenen Kompromiss zwischen Genauigkeit und Latenz.
Die Evaluierung über verschiedene Modelle hinweg bestätigt eine starke Generalisierungsfähigkeit. Mit einem einzigen Backbone, der durch Anpassung der Kanaldimensionen in der ersten Schicht und kurzes Fine-Tuning angepasst wird, zeigt LUA eine robuste Leistung über FLUX, SD3 und SDXL hinweg. Diese Ergebnisse validieren die Cross-VAE-Kompatibilität und die konsistente Leistung über verschiedene Skalen.
Qualitative Analyse
Qualitative Vergleiche zeigen, dass direkte Hochauflösungsgenerierung oft zu typischen Fehlern bei großen Skalen führt, wie duplizierten Strukturen oder geometrischen Verzerrungen. Pixelbasierte SR-Methoden können zwar schärfen, führen aber oft zu Ringing-Artefakten, Halos oder unnatürlichen Texturen. SDXL+LUA hingegen bewahrt die Kantenkontinuität und Mikrostruktur mit weniger Artefakten. Die Ergebnisse sind scharfe Details und stabile Texturen ohne die typischen Hochauflösungsartefakte der direkten Generierung oder das Schärfungsrauschen der pixelbasierten SR. Die Laufzeiten bestätigen, dass LUA eine vergleichbare oder bessere visuelle Qualität bei geringster Latenz durch die Einzeldurchlauf-Hochskalierung im latenten Raum erreicht.
Fazit und Ausblick
Der Latent Upscaler Adapter (LUA) stellt eine signifikante Weiterentwicklung im Bereich der hochauflösenden Bildsynthese mit Diffusionsmodellen dar. Durch seine Fähigkeit, die Superauflösung effizient und qualitätsschonend direkt im latenten Raum durchzuführen, bietet er eine praktische und leistungsstarke Alternative zu bestehenden mehrstufigen Hochauflösungspipelines. Die robuste Generalisierungsfähigkeit über verschiedene Modelle und Skalierungsfaktoren hinweg unterstreicht das Potenzial von LUA für vielfältige Anwendungen.
Zukünftige Forschungsrichtungen könnten die Weiterentwicklung von LUA zur Bewältigung von Fehlern oder Verzerrungen im latenten Raum des Generators umfassen, beispielsweise durch die Integration leichter Konsistenzmodule zur Artefaktunterdrückung. Darüber hinaus könnte der Einsatz von LUA über die Text-zu-Bild-Generierung hinaus auf andere Bild-zu-Bild-Aufgaben ausgeweitet werden, bei denen die Strukturkonservierung während der Hochskalierung von entscheidender Bedeutung ist. Auch die Erweiterung des Adapters auf Videos mit zeitlicher Konsistenz könnte die praktische Anwendbarkeit in dynamischen Umgebungen erheblich verbessern.
Bibliography
- Bar-Tal et al. [2023] Omer Bar-Tal, Lior Yariv, Yaron Lipman, and Tali Dekel. MultiDiffusion: Fusing diffusion paths for controlled image generation. (2023). URL https://arxiv. org/abs/2302.08113, 2023.
- Batifol et al. [2025] Stephen Batifol, Andreas Blattmann, Frederic Boesel, Saksham Consul, Cyril Diagne, Tim Dockhorn, Jack English, Zion English, Patrick Esser, Sumith Kulal, et al. Flux. 1 kontext: Flow matching for in-context image generation and editing in latent space. arXiv e-prints, pages arXiv–2506, 2025.
- Bińkowski et al. [2021] Mikołaj Bińkowski, Danica J. Sutherland, Michael Arbel, and Arthur Gretton. Demystifying mmd gans, 2021.
- Cao et al. [2023] Jiezhang Cao, Qin Wang, Yongqin Xian, Yawei Li, Bingbing Ni, Zhiming Pi, Kai Zhang, Yulun Zhang, Radu Timofte, and Luc Van Gool. Ciaosr: Continuous implicit attention-in-attention network for arbitrary-scale image super-resolution, 2023.
- Chai et al. [2022] Lucy Chai, Michael Gharbi, Eli Shechtman, Phillip Isola, and Richard Zhang. Any-resolution training for high-resolution image synthesis, 2022.
- Chen et al. [2021a] Weimin Chen, Yuqing Ma, Xianglong Liu, and Yi Yuan. Hierarchical generative adversarial networks for single image super-resolution. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 355–364, 2021a.
- Chen et al. [2025] Xiangyu Chen, Xintao Wang, Wenlong Zhang, Xiangtao Kong, Yu Qiao, Jiantao Zhou, and Chao Dong. Hat: Hybrid attention transformer for image restoration, 2025.
- Chen et al. [2021b] Yinbo Chen, Sifei Liu, and Xiaolong Wang. Learning continuous image representation with local implicit image function, 2021b.
- Dong et al. [2015] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang. Image super-resolution using deep convolutional networks. IEEE transactions on pattern analysis and machine intelligence, 38(2):295–307, 2015.
- Du et al. [2024] Ruoyi Du, Dongliang Chang, Timothy Hospedales, Yi-Zhe Song, and Zhanyu Ma. DemoFusion: Democratising high-resolution image generation with no $. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 6159–6168, 2024.
- Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first international conference on machine learning, 2024.
- Fayyaz et al. [2022] Mohsen Fayyaz, Soroush Abbasi Koohpayegani, Farnoush Rezaei Jafari, Sunando Sengupta, Hamid Reza Vaezi Joze, Eric Sommerlade, Hamed Pirsiavash, and Jürgen Gall. Adaptive token sampling for efficient vision transformers. In European conference on computer vision, pages 396–414. Springer, 2022.
- Fuoli et al. [2021] Dario Fuoli, Luc Van Gool, and Radu Timofte. Fourier space losses for efficient perceptual image super-resolution, 2021.
- He et al. [2023] Yingqing He, Shaoshu Yang, Haoxin Chen, Xiaodong Cun, Menghan Xia, Yong Zhang, Xintao Wang, Ran He, Qifeng Chen, and Ying Shan. ScaleCrafter: Tuning-free higher-resolution visual generation with diffusion models. In The Twelfth International Conference on Learning Representations, 2023.
- Heusel et al. [2018] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium, 2018.
- Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
- Jeong et al. [2025] Jinho Jeong, Sangmin Han, Jinwoo Kim, and Seon Joo Kim. Latent space super-resolution for higher-resolution image generation with diffusion models. In Proceedings of the Computer Vision and Pattern Recognition Conference, pages 2355–2365, 2025.
- Jiang et al. [2024] Xingyu Jiang, Xiuhui Zhang, Ning Gao, and Yue Deng. When fast fourier transform meets transformer for image restoration. In European Conference on Computer Vision, pages 381–402. Springer, 2024.
- Kuznetsova et al. [2020] Alina Kuznetsova, Hassan Rom, Neil Alldrin, Jasper Uijlings, Ivan Krasin, Jordi Pont-Tuset, Shahab Kamali, Stefan Popov, Matteo Malloci, Alexander Kolesnikov, Tom Duerig, and Vittorio Ferrari. The open images dataset v4: Unified image classification, object detection, and visual relationship detection at scale. International Journal of Computer Vision, 128(7):1956–1981, 2020.
- Ledig et al. [2017] Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, and Wenzhe Shi. Photo-realistic single image super-resolution using a generative adversarial network, 2017.
- Lee and Jin [2022] Jaewon Lee and Kyong Hwan Jin. Local texture estimator for implicit representation function, 2022.
- Li et al. [2021] Haoying Li, Yifan Yang, Meng Chang, Huajun Feng, Zhihai Xu, Qi Li, and Yueting Chen. SRDiff: Single image super-resolution with diffusion probabilistic models, 2021.
- Li et al. [2024] Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, and Stefano Soatto. On the scalability of diffusion-based text-to-image generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9400–9409, 2024.
- Liang et al. [2021] Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc Van Gool, and Radu Timofte. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF international conference on computer vision, pages 1833–1844, 2021.
- Lim et al. [2017] Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah, and Kyoung Mu Lee. Enhanced deep residual networks for single image super-resolution, 2017.
- Lin et al. [2024] Xinqi Lin, Jingwen He, Ziyan Chen, Zhaoyang Lyu, Bo Dai, Fanghua Yu, Wanli Ouyang, Yu Qiao, and Chao Dong. DiffBIR: Towards blind image restoration with generative diffusion prior, 2024.
- Meng et al. [2023] Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik Kingma, Stefano Ermon, Jonathan Ho, and Tim Salimans. On distillation of guided diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 14297–14306, 2023.
- Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. SDXL: Improving latent diffusion models for high-resolution image synthesis, 2023.
- Rad et al. [2020] Mohammad Saeed Rad, Thomas Yu, Claudiu Musat, Hazim Kemal Ekenel, Behzad Bozorgtabar, and Jean-Philippe Thiran. Benefiting from bicubically down-sampled images for learning real-world image super-resolution, 2020.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision, 2021.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
- Saharia et al. [2021] Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J. Fleet, and Mohammad Norouzi. Image super-resolution via iterative refinement, 2021.
- Song et al. [2020] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.
- Song et al. [2023] Yang Song, Prafulla Dhariwal, Mark Chen, and Ilya Sutskever. Consistency models. 2023.
- Sun et al. [2025] Yipeng Sun, Yixing Huang, Zeyu Yang, Linda-Sophie Schneider, Mareike Thies, Mingxuan Gu, Siyuan Mei, Siming Bayer, Frank G Zöllner, and Andreas Maier. EAGLE: an edge-aware gradient localization enhanced loss for ct image reconstruction. Journal of Medical Imaging, 12(1):014001–014001, 2025.
- Wang et al. [2024] Jianyi Wang, Zongsheng Yue, Shangchen Zhou, Kelvin C. K. Chan, and Chen Change Loy. Exploiting diffusion prior for real-world image super-resolution, 2024.
- Wang et al. [2018] Xintao Wang, Ke Yu, Shixiang Wu, Jinjin Gu, Yihao Liu, Chao Dong, Chen Change Loy, Yu Qiao, and Xiaoou Tang. ESRGAN: Enhanced super-resolution generative adversarial networks, 2018.
- Wu et al. [2024] Rongyuan Wu, Tao Yang, Lingchen Sun, Zhengqiang Zhang, Shuai Li, and Lei Zhang. SeeSR: Towards semantics-aware real-world image super-resolution, 2024.
- Yu et al. [2024] Fanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao, and Chao Dong. Scaling up to excellence: Practicing model scaling for photo-realistic image restoration in the wild, 2024.
- Zhang et al. [2024] Shen Zhang, Zhaowei Chen, Zhenyu Zhao, Yuhao Chen, Yao Tang, and Jiajun Liang. HiDiffusion: Unlocking higher-resolution creativity and efficiency in pretrained diffusion models. In European Conference on Computer Vision, pages 145–161. Springer, 2024.