Mindverse
News

Neue Dimensionen der Kreativität: Fortschritte in der 3D-Inhaltsgenerierung aus Text und Bildern

April 2, 2024
In den letzten Jahren hat sich die 3D-Inhaltegenerierung von Textbeschreibungen oder Einzelbildern erheblich weiterentwickelt. Eine der führenden Methoden in diesem Bereich ist die Erzeugung konsistenter Multi-View-Bilder, gefolgt von einer umfassenderen 3D-Modellierung. Die jüngsten Fortschritte auf diesem Gebiet sind beeindruckend, insbesondere im Hinblick auf Qualität und Geschwindigkeit. Ein Beispiel für diese Fortschritte ist FlexiDreamer, ein System zur Generierung von 3D-Inhalten aus einzelnen Bildern unter Verwendung von FlexiCubes. Diese Technologie ermöglicht es, aus einem einzigen Bild oder einer Textbeschreibung hochqualitative 3D-Modelle zu erstellen. FlexiDreamer setzt dabei auf ein Paradigma, das durch die Erzeugung konsistenter Multi-View-Bilder eine nachfolgende 3D-Modellierung ermöglicht. Auf diese Weise wird eine neue Dimension der Visualisierung und Interaktion erreicht, die in verschiedenen Anwendungsbereichen von großem Nutzen sein kann. Ein weiteres Beispiel für diese technologischen Entwicklungen ist Sketch2NeRF, ein Framework zur 3D-Generierung, das von Skizzen geleitet wird. Diese Methode ermöglicht es, hochwertige 3D-Inhalte zu synthetisieren, die mit Textbeschreibungen übereinstimmen und gleichzeitig eine feinkörnige Kontrolle durch Skizzen bieten. Das Framework nutzt vortrainierte 2D-Diffusionsmodelle, um die Optimierung eines 3D-Szenenrepräsentationsfeldes, bekannt als Neural Radiance Field (NeRF), zu überwachen. Die Herausforderung hierbei ist die flexible Kontrolle über die generierten 3D-Objekte, die trotz der Abstraktion und Mehrdeutigkeit von Skizzen erreicht werden muss. SyncDreamer, ein weiteres innovatives Diffusionsmodell, das in der Lage ist, konsistente Multi-View-Bilder direkt aus einem Einzelbild zu generieren, hat ebenfalls Aufmerksamkeit auf sich gezogen. Dieses Modell nutzt die gemeinsame Wahrscheinlichkeitsverteilung von Multi-View-Bildern, um eine konsistente Bildgenerierung in einem einzigen reversen Prozess zu ermöglichen. Die erzeugten Bilder sind in ihrer Geometrie und Farbgebung konsistent, was SyncDreamer für verschiedene 3D-Generierungsaufgaben wie die Synthese neuer Ansichten, Text-zu-3D- und Bild-zu-3D-Aufgaben geeignet macht. Neben diesen Technologien hat sich auch One-2-3-45++ als bemerkenswert erwiesen, eine Methode, die ein einzelnes Bild in ca. einer Minute in ein detailliertes 3D-Texturmodell umwandelt. Dieser Ansatz nutzt das umfangreiche Wissen, das in 2D-Diffusionsmodellen und Prioritäten aus wertvollen, jedoch begrenzten 3D-Daten eingebettet ist. Indem zuerst ein 2D-Diffusionsmodell für die Erzeugung konsistenter Multi-View-Bilder feinabgestimmt wird, werden diese Bilder dann mit Hilfe von Multi-View-konditionierten 3D-nativen Diffusionsmodellen in 3D übertragen. Die Geschwindigkeit der 3D-Modellgenerierung hat sich ebenfalls verbessert. Ein neues System namens LGM (Large Multi-View Gaussian Model) verspricht, die Generierungszeit drastisch zu verkürzen, indem es 3D-Modelle in nur wenigen Sekunden erstellt. LGM verwendet ein asymmetrisches U-Net-Rückgrat in Verbindung mit Multi-View-Diffusionsmodellen, was eine nahezu sofortige 3D-Erstellung ermöglicht und gleichzeitig Probleme mit Auflösung und Treue löst, die in früheren Modellen auftraten. Die Forschung und Entwicklung auf dem Gebiet der 3D-Inhalteerzeugung hat sich als fruchtbar erwiesen und bietet beeindruckende Lösungen für die Herausforderungen der visuellen Repräsentation und Interaktion. Mit Technologien wie FlexiDreamer, Sketch2NeRF, SyncDreamer und LGM ist die Zukunft der 3D-Modellierung und -Visualisierung vielversprechend. Quellen: 1. AK [@_akhaliq]. (2024, April 2). FlexiDreamer Single Image-to-3D Generation with FlexiCubes [Tweet]. 2. Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation. Hugging Face Co. https://huggingface.co/papers/2401.14257. 3. Liu, Y., Lin, C., Zeng, Z., Long, X., Liu, L., Komura, T., & Wang, W. (2023). SyncDreamer: Generating Multiview-consistent Images from a Single-view Image. arXiv preprint arXiv:2309.03453. 4. One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion. Hugging Face Co. https://huggingface.co/papers/2311.07885. 5. Monge, J. C. (2024, February 12). This AI Tool Can Do Text-To-3D and Image-To-3D in 5 Seconds. Generative AI. https://generativeai.pub/this-ai-tool-can-do-text-to-3d-and-image-to-3d-in-5-seconds-ef1a7fe6e77a.