Mindverse
News

Neue Wege in der KI Bildgenerierung Visuelle Beziehungen präziser darstellen

April 2, 2024
In der Welt der künstlichen Intelligenz und der Bildgenerierung stehen Forscher und Entwickler ständig vor neuen Herausforderungen, um die Grenzen dessen, was möglich ist, zu verschieben. Eine solche Herausforderung ist die genaue Darstellung visueller Beziehungen zwischen Objekten in Bildern, die aus Textbeschreibungen generiert wurden. Dieses Problem ist besonders relevant bei Diffusionsmodellen für Text-zu-Bild (Text-to-Image, T2I), die trotz ihrer beeindruckenden generativen Fähigkeiten oft Schwierigkeiten haben, genau diese visuellen Beziehungen abzubilden. Kürzlich hat ein Forscherteam der National University of Singapore einen neuen Ansatz vorgestellt, der sich mit dieser spezifischen Herausforderung befasst. Der Ansatz, bekannt als "Relation Rectification", zielt darauf ab, die Genauigkeit von Diffusionsmodellen bei der Darstellung von visuellen Beziehungen zwischen Objekten zu verbessern. Die Forscher haben dazu ein innovatives System namens Heterogeneous Graph Convolutional Network (HGCN) entwickelt. Dieses Netzwerk ist darauf ausgelegt, die Richtung von Beziehungen zwischen Begriffen und den entsprechenden Objekten innerhalb von Eingabeaufforderungen (Prompts) zu modellieren. Die Grundidee hinter diesem Ansatz ist es, die Texteinbettungen, die von einem Textencoder generiert wurden, anzupassen, damit sie die textuelle Beziehung im Einbettungsraum genau widerspiegeln können. Dies geschieht durch die Optimierung des HGCN anhand von Paaren von Aufforderungen mit identischen relationalen Wörtern, aber vertauschten Objektreihenfolgen, ergänzt durch einige Referenzbilder. Das bedeutet, dass beispielsweise für die Eingabeaufforderungen "ein Buch liegt auf einer Schüssel" und "eine Schüssel liegt auf einem Buch" unterschiedliche visuelle Darstellungen generiert werden sollten, die die tatsächliche räumliche Beziehung der Objekte zueinander reflektieren. Die Schlüsselkomponente, die dies ermöglicht, ist das sogenannte End-of-Text-Token (EOT), dessen Einbettungen eine entscheidende Rolle bei der Generierung von Beziehungen spielen. Die Forscher haben festgestellt, dass die Einbettungen des EOT-Tokens, die aus den umgekehrten Aufforderungen generiert wurden, nahezu identisch sind, was es schwierig macht, die Richtung der Beziehungen zu unterscheiden. Das HGCN generiert Anpassungsvektoren, die die EOT-Einbettungen dieser Aufforderungen deutlich trennen, was zu einer genaueren Darstellung der Beziehungen im generierten Bild führt. Um die Wirksamkeit ihres Ansatzes zu bewerten, haben die Forscher einen neuen Datensatz zusammengestellt, den Relation Rectification Benchmark, der eine Vielzahl von relationalen Daten umfasst. Die experimentellen Ergebnisse zeigen, dass der Ansatz sowohl quantitative als auch qualitative Verbesserungen bei der Generierung von Bildern mit präzisen visuellen Beziehungen ermöglicht. Trotz einer geringfügigen Abnahme der Bildtreue konnte die Genauigkeit der Beziehungsgenerierung von Diffusionsmodellen um bis zu 25 % verbessert werden. Darüber hinaus zeigt die Methode eine starke Generalisierbarkeit, da sie auch mit zuvor ungesehenen Objekten im Datensatz effektiv umgehen kann. Die Forschungsergebnisse wurden auf der Konferenz CVPR 2024 vorgestellt und haben in der KI-Community für Aufsehen gesorgt. Die Autoren der Studie, Yinwei Wu, Xingyi Yang und Xinchao Wang, betonen, dass ihre Arbeit einen wichtigen Schritt darstellt, um die Fähigkeit von T2I-Diffusionsmodellen zur genauen Generierung von Bildern zu verbessern, die die in Textaufforderungen beschriebenen Richtungsbeziehungen widerspiegeln. Diese Forschung ist ein Beispiel dafür, wie KI-Technologien ständig weiterentwickelt werden, um komplexe und nuancierte menschliche Wahrnehmungen und Verständnisse zu emulieren. Für Unternehmen wie Mindverse, die sich auf Inhalte, KI-Text, Bilder und Forschung konzentrieren, ist diese Entwicklung von besonderem Interesse, da sie neue Möglichkeiten für die Erstellung und Verarbeitung von Inhalten bietet, die auf künstlicher Intelligenz basieren. Die vollständigen Forschungsergebnisse sind im Preprint auf arXiv verfügbar, und der zugehörige Projektcode ist auf GitHub zu finden. Diese Ressourcen bieten der Gemeinschaft eine Grundlage, auf der sie aufbauen und die Technologie weiterentwickeln können. Quellen: - Wu, Y., Yang, X., & Wang, X. (2024). Relation Rectification in Diffusion Model. arXiv:2403.20249 [cs.CV]. - Projektseite: https://wuyinwei-hah.github.io/rrnet.github.io/ - Code: https://github.com/WUyinwei-hah/RRNet