Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Bearbeitung von Bildern hat sich in den letzten Jahren rasant entwickelt, nicht zuletzt durch den Einsatz generativer KI-Modelle. Eine der anspruchsvollsten Aufgaben in diesem Bereich ist die Modifikation spezifischer Objekte innerhalb eines Bildes, ohne deren grundlegende Identität oder den umgebenden Szenenkontext zu verändern. Aktuelle Forschungsergebnisse, insbesondere die Entwicklung der Methode "Alterbute", zeigen vielversprechende Fortschritte bei der Bewältigung dieser Komplexität.
Die Erscheinung eines Objekts in einem Bild setzt sich aus intrinsischen und extrinsischen Eigenschaften zusammen. Intrinsische Eigenschaften umfassen Farbe, Textur, Material und Form, während extrinsische Faktoren wie Kameraposition, Beleuchtung und Hintergrund die Szene definieren. Während viele Bildbearbeitungsmethoden extrinsische Eigenschaften effektiv ändern können, ohne die Objektidentität zu beeinträchtigen, stellt die gezielte Bearbeitung intrinsischer Attribute eine weitaus größere Herausforderung dar. Die Schwierigkeit liegt darin, welche intrinsischen Eigenschaften für die Identität eines Objekts wesentlich sind und welche ohne Wahrnehmungsänderung modifiziert werden können. Eine zu breite Definition von Identität (z.B. "Auto" als Kategorie) erlaubt zwar viele Änderungen, kann aber das intuitive Verständnis der Identität verletzen. Eine zu enge Definition (z.B. auf Instanzebene) schränkt die Bearbeitungsmöglichkeiten hingegen stark ein.
Forscher haben mit "Alterbute" eine diffusionsbasierte Methode vorgestellt, die genau dieses Problem adressiert. Alterbute ermöglicht die Bearbeitung intrinsischer Objekteigenschaften wie Farbe, Textur, Material und sogar die Form, während die wahrgenommene Identität des Objekts und der Szenenkontext erhalten bleiben. Bestehende Ansätze stützen sich oft auf unüberwachte Prioritäten, die die Identität nicht immer zuverlässig bewahren, oder auf zu restriktive Überwachung, die sinnvolle intrinsische Variationen verhindert.
Die Effektivität von Alterbute basiert auf zwei wesentlichen Innovationen:
1. Gelockertes Trainingsziel: Anstatt das Modell darauf zu beschränken, ausschließlich intrinsische Attribute zu bearbeiten, erlaubt Alterbute während des Trainings die Modifikation sowohl intrinsischer als auch extrinsischer Attribute. Dies erleichtert die Beschaffung von Trainingsdaten, da Bildpaare mit sowohl intrinsischen als auch extrinsischen Änderungen leichter zu finden sind als solche mit ausschließlich intrinsischen Änderungen. Bei der Inferenz werden jedoch extrinsische Änderungen durch die Wiederverwendung des ursprünglichen Hintergrunds und der Objektmaske eingeschränkt, sodass nur die gewünschten intrinsischen Attribute verändert werden.
2. Visual Named Entities (VNEs): Alterbute führt VNEs ein, feingranulare visuelle Identitätskategorien (z.B. "Porsche 911 Carrera" statt nur "Auto"). Diese VNEs gruppieren Objekte, die identitätsdefinierende Merkmale teilen, aber Variationen in ihren intrinsischen Attributen zulassen. Die VNE-Labels und intrinsischen Attributbeschreibungen werden automatisch mithilfe eines Vision-Language-Modells (VLM) aus großen öffentlichen Bilddatensätzen extrahiert. Dieser automatisierte Prozess ermöglicht eine skalierbare und identitätserhaltende Überwachung ohne manuelle Etikettierung.
Alterbute basiert auf einem vortrainierten latenten Diffusionsmodell, wie beispielsweise SDXL, das an die spezifischen Anforderungen der intrinsischen Attributbearbeitung angepasst wird. Das Modell wird auf drei Eingaben konditioniert:
Durch die Anordnung der Eingaben in einem Bildraster und die Anwendung eines Diffusions-L2-Verlustes lernt das Modell, präzise und identitätserhaltende Änderungen vorzunehmen. Um die Umformung von Objekten zu ermöglichen, wird während des Trainings zufällig zwischen präzisen Segmentierungsmasken und groben Bounding-Box-Masken gewechselt.
Da es keinen Standard-Benchmark für die Bearbeitung intrinsischer Objektattribute gibt, wurde ein spezieller Evaluationsdatensatz mit 30 verschiedenen Objekten (15 bekannte, 15 aus unterrepräsentierten Kategorien wie Möbel und Fahrzeuge) erstellt. Jedes Objekt wurde mit mehreren Text-Prompts für verschiedene intrinsische Attributmodifikationen kombiniert, was zu 100 Evaluationsbeispielen führte.
In qualitativen Vergleichen zeigte sich, dass Alterbute die Zielattribute erfolgreich modifiziert, während die Objektidentität und der Szenenkontext erhalten bleiben. Andere Methoden hatten oft Schwierigkeiten, die Identität zu bewahren oder die angeforderten Änderungen präzise umzusetzen. Besonders hervorzuheben ist die Fähigkeit von Alterbute, Objekte identitätserhaltend umzuformen.
Eine Benutzerstudie auf der CloudResearch-Plattform mit 166 Teilnehmern ergab, dass Alterbute in 76,2 % bis 89,3 % der Fälle gegenüber allgemeinen Bildbearbeitungstools und in 79,7 % bis 85,0 % der Fälle gegenüber attributspezifischen Editoren bevorzugt wurde. Auch VLM-basierte Bewertungen mit Gemini, GPT-4o und Claude 3.7 Sonnet bestätigten diese Präferenzen.
Die Analyse der VNE-Cluster auf dem OpenImages-Datensatz zeigte, dass Alterbutes automatisierte VNE-Labeling-Pipeline erfolgreich 1,5 Millionen Objekten VNE-Labels zuweist. Dies resultierte in 69.744 VNE-Clustern mit über einer Million gelabelter Bilder. Diese Cluster sind entscheidend für die identity-bewahrende Bearbeitung, da sie Objekte gruppieren, die visuell ähnlich sind, aber natürliche Variationen in intrinsischen Attributen aufweisen.
Ablationsstudien untersuchten den Einfluss verschiedener Identitätsdefinitionen auf die Leistung des Modells. Es zeigte sich, dass VNEs eine effektivere Darstellung der Objektidentität bieten als DINOv2- oder instanzbasierte Merkmalsräume, die entweder zu grob oder zu restriktiv sind und die Lernfähigkeit des Modells für kontrollierte Bearbeitungen einschränken.
Alterbute ermöglicht die Bearbeitung einzelner Attribute zur Inferenzzeit, obwohl das Training alle intrinsischen Attribute umfasste. Durch das zufällige Weglassen von Text-Prompts während des Trainings lernt das Modell, nicht spezifizierte Attribute aus dem Referenzbild zu inferieren.
Das Modell kann auch mehrere Attribute gleichzeitig bearbeiten, solange diese nicht miteinander in Konflikt stehen. Natürliche Abhängigkeiten zwischen Attributen (z.B. Material Gold schließt bestimmte Farben aus) werden durch die Trainingsdaten erlernt.
Trotz der beeindruckenden Fähigkeiten gibt es auch Limitationen. Bei der Verwendung grober Bounding-Box-Masken für die Umformung können leichte Hintergrundinkonsistenzen auftreten. Die Umformung starrer Objekte bleibt eine Herausforderung, da die Form oft eng mit identitätsdefinierenden Merkmalen korreliert ist und die generierten Formen manchmal unrealistisch wirken können.
Die Methode Alterbute stellt einen signifikanten Fortschritt in der Bildbearbeitung dar, indem sie eine präzise und identitätserhaltende Modifikation intrinsischer Objekteigenschaften in Bildern ermöglicht. Durch die Kombination eines gelockerten Trainingsziels mit der Einführung von Visual Named Entities (VNEs) überwindet Alterbute zentrale Herausforderungen, mit denen frühere Methoden zu kämpfen hatten. Dies eröffnet neue Möglichkeiten für die Erstellung und Bearbeitung von visuellen Inhalten, insbesondere in B2B-Anwendungen, wo die Konsistenz und Realitätsnähe von Produktvisualisierungen und Marketingmaterialien von großer Bedeutung sind.
Die Fähigkeit, Farbe, Textur, Material und Form von Objekten gezielt zu ändern, ohne deren Identität oder den Szenenkontext zu beeinträchtigen, hat weitreichende Implikationen. Denkbar sind Anwendungen in Bereichen wie Produktdesign, E-Commerce, Marketing und virtuellen Simulationen, wo präzise Anpassungen von großer Relevanz sind. Die fortlaufende Forschung in diesem Bereich wird voraussichtlich zu noch robusteren und vielseitigeren Werkzeugen führen, die die Grenzen der visuellen Bearbeitung weiter verschieben.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen