Effizienzsteigerung in der Bildsynthese durch elastische latente Schnittstellen in Diffusionstransformatoren

Kategorien:

No items found.

Freigegeben:

March 13, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Diffusionstransformatoren (DiTs) erzeugen hochwertige Bilder, sind jedoch in ihrer Recheneffizienz an die Bildauflösung gebunden, was flexible Kompromisse zwischen Latenz und Qualität erschwert.
Die gleichmäßige Zuweisung von Rechenleistung über alle Bildbereiche hinweg führt zu Ineffizienzen, da unwichtige Regionen unnötig verarbeitet werden.
ELIT (Elastic Latent Interface Transformer) ist ein neuer Mechanismus, der die Eingabebildgröße von der Rechenleistung entkoppelt und eine dynamische Anpassung ermöglicht.
ELIT verwendet eine lernbare, variabel lange Token-Sequenz (latente Schnittstelle) und leichte Read- und Write-Cross-Attention-Schichten, um Informationen zwischen räumlichen Token und latenten Variablen zu übertragen und wichtige Regionen zu priorisieren.
Durch das Training mit zufälligem Entfernen von End-Latents lernt ELIT, nach Wichtigkeit geordnete Repräsentationen zu erzeugen, wobei frühe Latents globale Strukturen erfassen und spätere Details verfeinern.
Im Inferenzprozess kann die Anzahl der Latents dynamisch an die Rechenbeschränkungen angepasst werden, was eine flexible Skalierung der Qualität ermöglicht.
ELIT ist minimalistisch konzipiert, fügt nur zwei Cross-Attention-Schichten hinzu und lässt das ursprüngliche DiT-Modell und den Rectified Flow Objective unverändert.
Über verschiedene Datensätze und Architekturen (DiT, U-ViT, HDiT, MM-DiT) hinweg zeigt ELIT konsistente Leistungssteigerungen, beispielsweise eine Verbesserung der FID- und FDD-Werte auf ImageNet-1K 512px um durchschnittlich 35,3 % bzw. 39,6 %.

Revolution in der Bildsynthese: Wie "Elastic Latent Interfaces" (ELIT) Diffusionstransformatoren effizienter machen

Die generative Bildsynthese hat in den letzten Jahren beeindruckende Fortschritte gemacht, maßgeblich angetrieben durch die Entwicklung von Diffusionstransformatoren (DiTs). Diese Modelle sind in der Lage, Bilder von außergewöhnlicher Qualität zu erzeugen. Eine grundlegende Herausforderung bei DiTs besteht jedoch darin, dass ihre Rechenleistung (FLOPs) untrennbar mit der Bildauflösung verbunden ist. Dies limitiert die Möglichkeit, flexible Kompromisse zwischen Latenz und generativer Qualität einzugehen. Darüber hinaus verteilen herkömmliche DiTs die Rechenleistung gleichmäßig auf alle räumlichen Token der Eingabe, was zu einer ineffizienten Ressourcennutzung führt, insbesondere in Bereichen des Bildes, die weniger relevant für die Generierung von Details sind.

Neue Forschungsergebnisse, die unter dem Titel "One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers" veröffentlicht wurden, stellen hierfür eine vielversprechende Lösung vor: den Elastic Latent Interface Transformer (ELIT). Dieser innovative Mechanismus, entwickelt von einem Team um Moayed Haji-Ali und Vicente Ordonez, ermöglicht eine Entkopplung der Eingabebildgröße von der benötigten Rechenleistung und verspricht, die Effizienz und Flexibilität von Diffusionstransformatoren erheblich zu steigern.

Die Kerninnovation von ELIT: Elastische latente Schnittstellen

ELIT führt eine "latente Schnittstelle" ein – eine lernbare Sequenz von Token variabler Länge, auf der die Standard-Transformer-Blöcke operieren können. Diese Schnittstelle fungiert als dynamischer Engpass, der es dem Modell ermöglicht, sich auf die wichtigsten Regionen des Eingabebildes zu konzentrieren. Die Kommunikation zwischen den räumlichen Token des Bildes und dieser latenten Schnittstelle wird durch zwei neuartige, leichte Cross-Attention-Schichten ("Read" und "Write") gesteuert. Die "Read"-Schicht extrahiert relevante Informationen aus den räumlichen Token und überträgt sie an die latente Schnittstelle, während die "Write"-Schicht die verarbeiteten latenten Informationen zurück in den räumlichen Token-Raum projiziert.

Ein zentraler Aspekt des Trainings von ELIT ist das zufällige Entfernen von "Tail Latents" (weniger wichtigen latenten Token). Dadurch lernt das Modell, Repräsentationen zu erzeugen, die nach ihrer Wichtigkeit geordnet sind: Frühere latente Token erfassen globale Strukturen und allgemeine Bildmerkmale, während spätere Token Informationen zur Verfeinerung von Details enthalten. Diese hierarchische Informationskodierung ist entscheidend für die dynamische Anpassungsfähigkeit von ELIT.

Dynamische Anpassung und Effizienz im Inferenzprozess

Im Inferenzprozess kann die Anzahl der verwendeten latenten Token dynamisch angepasst werden, um den jeweiligen Rechenbeschränkungen oder gewünschten Qualitätsniveaus gerecht zu werden. Dies ermöglicht einen flexiblen Kompromiss zwischen der Rechenzeit und der generierten Bildqualität. ELIT ist dabei bewusst minimalistisch gehalten: Es integriert sich nahtlos in bestehende DiT-Architekturen, indem es lediglich die beiden erwähnten Cross-Attention-Schichten hinzufügt, während der Rectified Flow Objective und der grundlegende DiT-Stack unverändert bleiben.

Die Wirksamkeit von ELIT wurde über eine Reihe von Datensätzen und Architekturen (wie DiT, U-ViT, HDiT und MM-DiT) hinweg demonstriert. Auf dem ImageNet-1K-Datensatz bei einer Auflösung von 512x512 Pixeln konnte ELIT beispielsweise eine durchschnittliche Verbesserung von 35,3 % bei den FID-Werten (Fréchet Inception Distance) und 39,6 % bei den FDD-Werten (Feature Distance Distribution) gegenüber den Baselines erzielen. Diese Metriken sind entscheidend für die Bewertung der generativen Qualität von Bildern.

Implikationen für die Praxis

Die Einführung von ELIT könnte weitreichende Implikationen für die praktische Anwendung von generativen KI-Modellen haben. Unternehmen, die Diffusionstransformatoren für Bildgenerierung, -bearbeitung oder andere visuelle Aufgaben nutzen, könnten von einer deutlich höheren Flexibilität und Effizienz profitieren. Die Möglichkeit, die Rechenleistung dynamisch an die jeweiligen Anforderungen anzupassen, ohne die Kernarchitektur des Modells ändern zu müssen, eröffnet neue Wege für den Einsatz von DiTs in ressourcenbeschränkten Umgebungen oder in Anwendungen, die schnelle Iterationen bei variabler Qualität erfordern.

Insbesondere für B2B-Anwendungen, bei denen Kosten- und Leistungseffizienz von großer Bedeutung sind, bietet ELIT einen entscheidenden Vorteil. Die Fähigkeit, mit ein und demselben Modell unterschiedliche Budgets zu bedienen und dabei die Qualität präzise zu steuern, kann die Entwicklung und Bereitstellung von KI-Lösungen erheblich optimieren.

Die Forschung hinter ELIT zeigt, dass Innovationen nicht immer eine komplette Neuentwicklung erfordern, sondern auch durch gezielte, minimalistische Erweiterungen bestehender Architekturen signifikante Verbesserungen erzielt werden können. Dies unterstreicht die kontinuierliche Weiterentwicklung und Verfeinerung im Bereich der generativen KI, die darauf abzielt, leistungsstarke Modelle zugänglicher und anpassungsfähiger für eine Vielzahl von Anwendungen zu machen.

Zukünftige Perspektiven

Die Arbeit an ELIT deutet auf eine vielversprechende Richtung in der Forschung an generativen Modellen hin: die Entwicklung von Architekturen, die intrinsisch auf Flexibilität und adaptive Ressourcennutzung ausgelegt sind. Die Erkenntnisse, dass DiTs Rechenleistung in unwichtigen Regionen verschwenden und dass eine hierarchische, wichtigkeitssortierte Repräsentation von Bildinformationen die Effizienz drastisch steigern kann, sind von grundlegender Bedeutung. Es bleibt abzuwarten, wie diese Prinzipien in zukünftigen generativen KI-Modellen weiterentwickelt und angewendet werden, um die Grenzen der Bildsynthese und anderer multimodaler Anwendungen weiter zu verschieben.

Bibliographie

- Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Dogyun Park, Anil Kag, Michael Vasilkovsky, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin: "One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers", arXiv:2603.12245 (2026). - Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Dogyun Park, Anil Kag, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin: "One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers", OpenReview (2026). - Vicente Ordonez Román – Computer Vision & NLP Professor, Rice University. Abgerufen am 13. März 2026. - Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen: "Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation", arXiv:2509.19244 (2025). - Devvrit, Sneha Kudugunta, Aditya Kusupati, Tim Dettmers, Kaifeng Chen, Inderjit Dhillon, Yulia Tsvetkov, Hannaneh Hajishirzi, Sham Kakade, Ali Farhadi, Prateek Jain: "MatFormer: Nested Transformer for Elastic Inference", arXiv:2310.07707 (2023). - Hugging Face Daily Papers: "CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing", "Mixture of Thoughts: Learning to Aggregate What Experts Think, Not Just What They Say", "Yuan 2.0-M32: Mixture of Experts with Attention Router", "FLARE: Fast Low-rank Attention Routing Engine", "Scalable Adaptive Computation for Iterative Generation", "DA-MoE: Towards Dynamic Expert Allocation for Mixture-of-Experts Models", "Router Upcycling: Leveraging Mixture-of-Routers in Mixture-of-Experts Upcycling", "Multi-Head Attention as a Source of Catastrophic Forgetting in MoE Transformers", "Efficient Content-Based Sparse Attention with Routing Transformers", "HyperRouter: Towards Efficient Training and Inference of Sparse Mixture of Experts", "SLA2: Sparse-Linear Attention with Learnable Routing and QAT", "Mixture of Attention Heads: Selecting Attention Heads Per Token", "Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers", "Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning", "RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering", "ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning", "LaDiMo: Layer-wise Distillation Inspired MoEfier", "Hardware-Centric Analysis of DeepSeek's Multi-Head Latent Attention", "Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers", "Towards Fair and Comprehensive Evaluation of Routers in Collaborative LLM Systems", "Routers in Vision Mixture of Experts: An Empirical Study", "Improving Routing in Sparse Mixture of Experts with Graph of Tokens", "R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts", "PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning", "Universal Model Routing for Efficient LLM Inference", "ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces", "ToolACE-MCP: Generalizing History-Aware Routing from MCP Tools to the Agent Web", "Dr.LLM: Dynamic Layer Routing in LLMs", "Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs", "R2-Router: A New Paradigm for LLM Routing with Reasoning", "Efficient and Economic Large Language Model Inference with Attention Offloading", "MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation", "Learned Best-Effort LLM Serving", "Glider: Global and Local Instruction-Driven Expert Router", "RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models", "RouteLLM: Learning to Route LLMs with Preference Data", "Mixture of Contexts for Long Video Generation", "Intelligent Router for LLM Workloads: Improving Performance Through Workload-Aware Scheduling", "Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks", "DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism", "When to Reason: Semantic Router for vLLM", "FlyLoRA: Boosting Task Decoupling and Parameter Efficiency via Implicit Rank-Wise Mixture-of-Experts", "On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating", "Optimizing Mixture of Block Attention", "Multilingual Routing in Mixture-of-Experts", "Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss", "SHRP: Specialized Head Routing and Pruning for Efficient Encoder Compression", "LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing", "xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning", "BiFormer: Vision Transformer with Bi-Level Routing Attention", "Rethinking Predictive Modeling for LLM Routing: When Simple kNN Beats Complex Learned Routers", "Mixture of States: Routing Token-Level Dynamics for Multimodal Generation", "Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs", "Soft Merging of Experts with Adaptive Routing", "Rewiring Experts on the Fly: Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models", "TCAndon-Router: Adaptive Reasoning Router for Multi-Agent Collaboration", "Dirichlet-Prior Shaping: Guiding Expert Specialization in Upcycled MoEs", "Lookahead Routing for Large Language Models", "Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design", "BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity", "HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation", "Mixture-of-Experts Meets In-Context Reinforcement Learning", "Cost-Aware Contrastive Routing for LLMs", "Scope: Selective Cross-modal Orchestration of Visual Perception Experts", "Learning When Not to Attend Globally", "LocMoE: A Low-overhead MoE for Large Language Model Training", "GraphRouter: A Graph-based Router for LLM Selections", "Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance", "S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning", "How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities", "Towards Understanding Mixture of Experts in Deep Learning", "Sparse Attention Decomposition Applied to Circuit Tracing", "Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer", "FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing", "Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models", "Omni-Router: Sharing Routing Decisions in Sparse Mixture-of-Experts for Speech Recognition", "StableMoE: Stable Routing Strategy for Mixture of Experts", "VL-RouterBench: A Benchmark for Vision-Language Model Routing", "TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts", "Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers", "Information Flow Routes: Automatically Interpreting Language Models at Scale", "Mixture of Routers", "Layerwise Recurrent Router for Mixture-of-Experts", "An Attentive Survey of Attention Models", "Optimizing Native Sparse Attention with Latent Attention and Local Global Alternating Strategies", "RouterBench: A Benchmark for Multi-LLM Routing System", "SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing", "Composition of Experts: A Modular Compound AI System Leveraging Large Language Models", "Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation", "RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory", "ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing", "Doing More with Less -- Implementing Routing Strategies in Large Language Model-Based Systems: An Extended Survey", "MasRouter: Learning to Route LLMs for Multi-Agent Systems", "Do Latent-CoT Models Think Step-by-Step? A Mechanistic Study on Sequential Reasoning Tasks", "Denoising Task Routing for Diffusion Models", "TrafficGPT: Breaking the Token Barrier for Efficient Long Traffic Analysis and Generation", "LaVieID: Local Autoregressive Diffusion Transformers for Identity-Preserving Video Creation", "Tryage: Real-time, intelligent Routing of User Prompts to Large Language Models", "Paris: A Decentralized Trained Open-Weight Diffusion Model", "AttentionEngine: A Versatile Framework for Efficient Attention Mechanisms on Diverse Hardware Platforms", "Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts", "SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture of Experts", "Disentangling and Integrating Relational and Sensory Information in Transformer Architectures", "SpeechMoE2: Mixture-of-Experts Model with Improved Routing", "Low-Rank Interconnected Adaptation across Layers", "Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models", "MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning", "vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models", "SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning", "RouterRetriever: Exploring the Benefits of Routing over Multiple Expert Embedding Models", "On the effectiveness of discrete representations in sparse mixture of experts", "The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts", "Faster Video Diffusion with Trainable Sparse Attention", "DRew: Dynamically Rewired Message Passing with Delay", "Token-Level LLM Collaboration via FusionRoute", "RouterArena: An Open Platform for Comprehensive Comparison of LLM Routers", "HierRouter: Coordinated Routing of Specialized Large Language Models via Reinforcement Learning", "Efficient LLM Training and Serving with Heterogeneous Context Sharding among Attention Heads", "GMAN: A Graph Multi-Attention Network for Traffic Prediction", "Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency", "Rethinking Predictive Modeling for LLM Routing: When Simple kNN Beats Complex Learned Routers", "Mixture of States: Routing Token-Level Dynamics for Multimodal Generation", "Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs", "Soft Merging of Experts with Adaptive Routing", "Rewiring Experts on the Fly: Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models", "TCAndon-Router: Adaptive Reasoning Router for Multi-Agent Collaboration", "Dirichlet-Prior Shaping: Guiding Expert Specialization in Upcycled MoEs", "Lookahead Routing for Large Language Models", "Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design", "BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity", "HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation", "Mixture-of-Experts Meets In-Context Reinforcement Learning", "Cost-Aware Contrastive Routing for LLMs", "Scope: Selective Cross-modal Orchestration of Visual Perception Experts", "Learning When Not to Attend Globally", "LocMoE: A Low-overhead MoE for Large Language Model Training", "GraphRouter: A Graph-based Router for LLM Selections", "Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance", "S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning" (2026). - Tianwei Xiong: "Computer Vision and Pattern Recognition | Cool Papers - Immersive Paper Discovery" (2026). - admin: "Paper Digest: NeurIPS 2025 Papers & Highlights", Paper Digest (2025).