Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die digitale Bildbearbeitung hat sich in den letzten Jahren rasant entwickelt, insbesondere durch den Einsatz von künstlicher Intelligenz. Eine der anspruchsvollsten Aufgaben in diesem Bereich ist die gezielte Veränderung spezifischer Merkmale von Objekten in Bildern, ohne deren grundlegende Identität oder den Kontext der Szene zu beeinträchtigen. Eine neue Entwicklung namens "Alterbute" zielt darauf ab, genau diese Herausforderung zu meistern, indem sie die Bearbeitung intrinsischer Attribute von Objekten in Bildern ermöglicht.
Die Bearbeitung von Objekten in Bildern bedeutet, bestimmte ihrer Eigenschaften zu ändern und gleichzeitig deren Identität zu bewahren. Die Erscheinung eines Objekts in einem Bild ergibt sich aus einer Kombination intrinsischer Eigenschaften wie Farbe, Textur, Material und Form sowie extrinsischer Faktoren wie Kameraposition, Beleuchtung und Hintergrund. Während viele bestehende Bildbearbeitungsmethoden extrinsische Eigenschaften ändern können, die die Identität bewahren, gelingt es nur wenigen, intrinsische Eigenschaften erfolgreich zu bearbeiten.
Die zentrale Frage bei der intrinsischen Attributbearbeitung ist, welche Eigenschaften für die Identität eines Objekts wesentlich sind und welche verändert werden können, ohne die Wahrnehmung des Objekts zu verändern. Eine zu lose Definition der Identität, beispielsweise nur die grobe Kategorie "Auto", erlaubt nahezu unbegrenzte Bearbeitungen, solange das Ergebnis noch zur gleichen Kategorie gehört. Dies widerspricht oft dem intuitiven Verständnis von Identität. Eine zu restriktive Definition, die alle intrinsischen Attribute fixiert, lässt hingegen kaum Variationen zu und macht sinnvolle Bearbeitungen unmöglich. Die Suche nach einem Gleichgewicht zwischen Editierbarkeit und Identitätserhaltung ist hier entscheidend.
"Alterbute" ist eine diffusionsbasierte Methode, die darauf abzielt, intrinsische Objektattribute wie Farbe, Textur, Material und Form zu bearbeiten, während die wahrgenommene Identität und der Szenenkontext erhalten bleiben. Bestehende Ansätze basieren entweder auf unüberwachten Prioren, die oft die Identität nicht bewahren, oder auf übermäßig restriktiver Überwachung, die sinnvolle intrinsische Variationen verhindert.
Eine der Kerninnovationen von "Alterbute" ist ein entspanntes Trainingsziel. Anstatt ein Modell zu entwickeln, das ausschließlich intrinsische Attribute bearbeitet, wird ein Modell trainiert, das sowohl intrinsische als auch extrinsische Attribute ändern kann. Dies ist ein entscheidender Schritt, da Bildpaare, die nur in intrinsischen Attributen variieren, aber einen identischen extrinsischen Kontext aufweisen, in der Natur kaum vorkommen und schwer zu sammeln sind. Durch die Erweiterung des Trainingsziels auf intrinsische und extrinsische Änderungen wird die supervised Schulung praktikabel.
Während des Trainings wird das Modell auf drei Eingaben konditioniert:
Bei der Inferenz werden extrinsische Änderungen eingeschränkt, indem der ursprüngliche Hintergrund und die Objektmaske wiederverwendet werden. Dadurch wird sichergestellt, dass nur die gewünschten intrinsischen Attribute verändert werden.
Die zweite wesentliche Innovation ist die Definition von "Visual Named Entities" (VNEs) zur Identitätskonditionierung. VNEs sind feingranulare visuelle Identitätskategorien, die widerspiegeln, wie Menschen auf natürliche Weise spezifische Objekttypen bezeichnen (z. B. "Porsche 911 Carrera", "IKEA LACK Tisch", "iPhone 16 Pro"). Im Gegensatz zu breiten Kategorien (z. B. "Auto"), die zu grob sind und zu viel Variation zulassen, oder instanzspezifischen Identifikatoren, die zu restriktiv sind, bieten VNEs ein praktisches Gleichgewicht. Sie gruppieren visuell ähnliche Objekte, die ein gemeinsames semantisches Label teilen, und ermöglichen gleichzeitig Variationen in intrinsischen und extrinsischen Attributen, während die wahrgenommene Identität erhalten bleibt.
Die Extraktion von VNEs erfolgt im großen Maßstab mithilfe des OpenImages-Datensatzes und eines Vision-Language-Modells (VLM) wie Gemini. Gemini weist Objekten, die in OpenImages erkannt werden, VNE-Labels zu, basierend auf deren visuellen Merkmalen. Dieser Prozess erzeugt Cluster von Bildern, in denen alle Objekte dasselbe VNE-Label teilen, aber natürliche Variationen in ihren intrinsischen und extrinsischen Attributen aufweisen. Diese Cluster dienen als Grundlage für die Generierung von Trainings-Triplets (Identitätsreferenz, Attribut-Prompt, Hintergrund + Maske). Diese automatisierte Kuratierungspipeline ermöglicht es der Methode, über Tausende von unterschiedlichen Identitäten zu skalieren, ohne manuelle Beschriftung zu erfordern.
Zusätzlich werden für jedes VNE-gelabelte Objekt intrinsische Attributbeschreibungen extrahiert, indem Gemini aufgefordert wird, das Objekt basierend auf seinem visuellen Erscheinungsbild zu beschreiben. Dies umfasst Farbe, Textur, Material und Form und dient als textuelle Aufforderung (Prompt) während des Trainings.
"Alterbute" verfeinert ein vortrainiertes latentes Diffusionsmodell, basierend auf der SDXL-Architektur, um präzise Kontrolle über Objektidentität, intrinsische Attribute und extrinsischen Szenenkontext zu ermöglichen. Das UNet-basierte Denoising-Netzwerk wird auf die drei oben genannten Eingaben konditioniert. Die Eingaben werden in einem 1x2-Bildraster angeordnet, wobei die linke Hälfte das verrauschte Latent des Zielobjekts und die rechte Hälfte das Referenzobjektbild enthält. Dies ermöglicht es den Self-Attention-Schichten im UNet, Identitätsmerkmale über die beiden Hälften hinweg zu verbreiten. Um Objektumformungen zu unterstützen, wird während des Trainings zufällig zwischen präzisen Segmentierungsmasken und groben Bounding-Box-Masken für Hintergrund und Maske gewechselt.
Bei der Inferenz modifiziert das Modell intrinsische Attribute, während alle extrinsischen Faktoren erhalten bleiben. Gegeben ist ein Eingabebild mit einem Objekt und einem Prompt, der ein spezifisches intrinsisches Attribut angibt. Zunächst wird die Objektmaske mithilfe eines vortrainierten Segmentierungsmodells extrahiert. Anschließend wird das Objekt zugeschnitten und sein Hintergrund maskiert, um das Referenzbild zu bilden. Der Objektbereich im Eingabebild wird mit grauen Pixeln maskiert, um das Hintergrundbild zu erstellen. Durch die Eingabe dieser Elemente in das Modell wird ein Ergebnis erzeugt, bei dem nur das angegebene intrinsische Attribut geändert wird.
Da es keinen Standard-Benchmark für die Bearbeitung intrinsischer Objektattribute gibt, wurde ein spezieller Evaluierungssatz aus 30 verschiedenen Objekten erstellt. "Alterbute" wurde mit allgemeinen und attributspezifischen Editoren verglichen, darunter FlowEdit, InstructPix2Pix, OmniGen, UltraEdit, Diptych sowie MaterialFusion (Material) und MimicBrush (Textur).
Qualitative Bewertungen zeigen, dass "Alterbute" die intrinsischen Attribute erfolgreich modifiziert, während die Objektidentität und der Szenenkontext erhalten bleiben. Im Gegensatz dazu haben andere Methoden oft Schwierigkeiten, die Identität zu bewahren oder die angeforderte Bearbeitung präzise anzuwenden. Besonders hervorzuheben ist, dass "Alterbute" die einzige Methode ist, die identitätserhaltende Objektumformungen ermöglicht und konsistent bessere Identitätserhaltung sowie qualitativ hochwertige Bearbeitungen über alle intrinsischen Attributtypen hinweg liefert.
Quantitative Bewertungen durch Benutzerstudien und VLM-basierte Evaluationen (mit Gemini, GPT-4o und Claude 3.7 Sonnet) bestätigen die Überlegenheit von "Alterbute". Die Präferenzraten der Gutachter zeigten eine starke Übereinstimmung mit den Benutzerurteilen und sprachen sich konsistent für "Alterbute" aus.
Eine Analyse der VNE-Cluster ergab, dass die automatisierte VNE-Labeling-Pipeline auf dem OpenImages-Datensatz etwa 1,5 Millionen Objekten VNE-Labels zuwies. Nach dem Entfernen von Single-Instanz-Clustern verbleiben 69.744 VNE-Cluster mit über einer Million gelabelten Bildern. Die Verteilung der Clustergrößen folgt einem Heavy-Tail-Muster, wobei die meisten Cluster klein sind, einige jedoch Tausende von Instanzen enthalten.
Die Ablationsstudie zur Definition der Identität unterstreicht die entscheidende Rolle der VNEs. Alternative Identitätsdefinitionen, wie DINOv2-Merkmalsraum oder instanzbasierte Retrieval-Merkmale, führten zu schlechteren Ergebnissen. DINOv2 tendierte dazu, visuell ähnliche, aber identitätsunterschiedliche Objekte zu gruppieren, während instanzbasierte Retrieval-Merkmale oft nicht genügend Variation in intrinsischen Attributen boten. Die VNE-basierte Strategie von "Alterbute" stellt hingegen sicher, dass die Identitätsreferenzen sowohl identitätskonsistent als auch vielfältig in intrinsischen Attributen sind.
Bearbeitung einzelner Attribute zur Inferenzzeit: "Alterbute" ermöglicht die gezielte Bearbeitung eines einzelnen intrinsischen Attributs zur Inferenzzeit, obwohl während des Trainings alle Attribute beschrieben werden. Dies wird durch das Training ermöglicht, bei dem der Text-Prompt in einem Teil der Beispiele zufällig weggelassen wird, wodurch das Modell gezwungen wird, nicht spezifizierte Attribute aus dem Referenzbild abzuleiten.
Bearbeitung mehrerer Attribute: Intrinsische Attribute weisen oft natürliche Abhängigkeiten auf. Das Modell erfasst diese Korrelationen durch die Trainingsdaten und vermeidet widersprüchliche Kombinationen. "Alterbute" kann jedoch erfolgreich mehrere intrinsische Attribute gleichzeitig modifizieren, wenn diese nicht in Konflikt stehen.
Hintergrundartefakte bei Bounding-Box-Masken: Um Umformungen zu ermöglichen, unterstützt "Alterbute" grobe Bounding-Box-Masken anstelle präziser Segmentierungen. Dies kann jedoch zu leichten Hintergrundinkonsistenzen innerhalb des maskierten Bereichs führen. Eine mögliche Lösung wäre, das Objekt vorab zu entfernen, um einen sauberen Hintergrund zu schaffen.
Umformung starrer Objekte: Die Umformung starrer Objekte führt nicht immer zu den gewünschten Ergebnissen. Obwohl "Alterbute" Formmanipulationen unterstützt, bleibt die Bearbeitung der Geometrie starrer Objekte eine Herausforderung, da die Form oft mit identitätsdefinierenden Merkmalen korreliert. In einigen Fällen können die generierten Formen unrealistisch wirken oder die beabsichtigte Änderung nicht widerspiegeln.
"Alterbute" stellt einen signifikanten Fortschritt in der Bildbearbeitung dar, indem es eine diffusionsbasierte Methode zur Bearbeitung intrinsischer Objektattribute – Farbe, Textur, Material und Form – einführt, während die wahrgenommene Identität und der umgebende Szenenkontext erhalten bleiben. Die Kombination aus einem entspannten Trainingsziel und der Nutzung von Visual Named Entities (VNEs) ermöglicht eine skalierbare, identitätserhaltende und hochpräzise Bearbeitung. Obwohl bestimmte Herausforderungen, insbesondere bei der Umformung starrer Objekte, bestehen bleiben, zeigt "Alterbute" vielversprechende Ergebnisse und setzt neue Maßstäbe in der Fähigkeit, fein granulare visuelle Änderungen an Objekten in Bildern vorzunehmen.
Bibliographie
- Reiss, T., Winter, D., Cohen, M., Rav-Acha, A., Pritch, Y., Shamir, A., & Hoshen, Y. (2026). Alterbute: Editing Intrinsic Attributes of Objects in Images. arXiv. - Reiss, T., Winter, D., Cohen, M., Rav-Acha, A., Pritch, Y., Shamir, A., & Hoshen, Y. (n.d.). Alterbute: Editing Intrinsic Attributes of Objects in Images. Project Page. https://talreiss.github.io/alterbute/ - Hugging Face. (n.d.). Paper page - Alterbute: Editing Intrinsic Attributes of Objects in Images. https://huggingface.co/papers/2601.10714 - Liu, H. (n.d.). Graphics | Cool Papers - Immersive Paper Discovery. https://papers.cool/arxiv/cs.GR - Lyu, L., Deschaintre, V., Hold-Geoffroy, Y., Hašan, M., Yoon, J. S., Leimkühler, T., Theobalt, C., & Georgiev, I. (2025). IntrinsicEdit: Precise generative image manipulation in intrinsic space. arXiv. - Michel, O., Bhattad, A., VanderBilt, E., Krishna, R., Kembhavi, A., & Gupta, T. (2023). OBJECT 3DIT: Language-guided 3D-aware Image Editing. arXiv. - Hugging Face. (n.d.). Daily Papers. https://huggingface.co/papers?q=attribute-object%20bindingLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen