Fortschritte in der Text-zu-3D-Generierung durch MARVEL-40M+ und MARVEL-FX3D

Kategorien:

No items found.

Freigegeben:

November 28, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Von Text zu 3D: MARVEL-40M+ ermöglicht realistische 3D-Inhalte

Die Generierung hochwertiger 3D-Inhalte aus Textbeschreibungen ist eine fortwährende Herausforderung im Bereich Computer Vision. Die Qualität der Ergebnisse hängt stark von den verfügbaren Trainingsdaten ab. Bestehende Datensätze sind oft begrenzt in ihrer Größe und Vielfalt und bieten unzureichende Annotationen. MARVEL-40M+ adressiert diese Problematik mit einem umfangreichen Datensatz, der über 8,9 Millionen 3D-Assets mit 40 Millionen Textannotationen umfasst. Diese stammen aus sieben etablierten 3D-Datensätzen und wurden durch eine innovative mehrstufige Annotationspipeline generiert.

Mehrstufige Annotationen für Detailtreue und Effizienz

Kernstück von MARVEL-40M+ ist die neuartige Annotationspipeline. Sie kombiniert Open-Source, vortrainierte Multi-View Vision-Language-Modelle (VLMs) und Large Language Models (LLMs), um automatisiert mehrstufige Beschreibungen zu erstellen. Diese reichen von detaillierten Beschreibungen mit 150-200 Wörtern bis hin zu prägnanten semantischen Tags mit 10-20 Wörtern. Diese Struktur ermöglicht sowohl eine feinkörnige 3D-Rekonstruktion als auch schnelles Prototyping.

Um die Genauigkeit der Annotationen zu verbessern und Halluzinationen der VLMs zu reduzieren, integriert die Pipeline menschliche Metadaten aus den ursprünglichen Datensätzen. Diese domänenspezifischen Informationen tragen zur Qualität und Vielfalt der Annotationen bei.

MARVEL-FX3D: Schnelle Text-zu-3D-Generierung

Ergänzend zu MARVEL-40M+ wurde MARVEL-FX3D entwickelt, eine zweistufige Pipeline zur Generierung von 3D-Inhalten aus Text. Im ersten Schritt wird Stable Diffusion mit den Annotationen von MARVEL-40M+ feinabgestimmt. Anschließend generiert ein vortrainiertes Image-zu-3D-Netzwerk texturierte 3D-Mesh-Modelle. Der gesamte Prozess dauert nur etwa 15 Sekunden.

Überlegene Qualität und Vielfalt der Annotationen

Ausführliche Evaluierungen belegen, dass MARVEL-40M+ bestehende Datensätze in Bezug auf die Qualität der Annotationen und die sprachliche Vielfalt deutlich übertrifft. Sowohl GPT-4 als auch menschliche Gutachter bevorzugen in Vergleichsstudien mit großer Mehrheit die Ergebnisse von MARVEL-40M+. GPT-4 erreichte eine Gewinnrate von 72,41%, menschliche Evaluatoren sogar 73,40%.

Anwendungsbereiche und Bedeutung für die 3D-Content-Erstellung

MARVEL-40M+ und MARVEL-FX3D eröffnen neue Möglichkeiten für die Erstellung von 3D-Inhalten. Die hohe Qualität und Geschwindigkeit der Generierung ermöglichen vielfältige Anwendungen, von der schnellen Prototypenerstellung bis hin zur detaillierten 3D-Modellierung. Die Kombination aus detaillierten Beschreibungen und semantischen Tags bietet Nutzern flexible Kontrollmöglichkeiten über den Generierungsprozess.

Für Unternehmen wie Mindverse, die KI-gestützte Content-Lösungen anbieten, stellt MARVEL-40M+ eine wertvolle Ressource dar. Die verbesserte Qualität und Geschwindigkeit der 3D-Generierung kann die Entwicklung von innovativen Anwendungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssystemen vorantreiben und die Erstellung von hochwertigem 3D-Content vereinfachen.

Bibliographie Sinha, S., Khan, M. S., Usama, M., Sam, S., Stricker, D., Ali, S. A., & Afzal, M. Z. (2024). MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation. arXiv preprint arXiv:2411.17945. Lin, C.-H., Gao, J., Tang, L., Takikawa, T., Zeng, X., Huang, X., Kreis, K., Fidler, S., Liu, M.-Y., & Lin, T.-Y. (2023). Magic3D: High-Resolution Text-to-3D Content Creation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16252-16262). Chen, C., Yang, X., Yang, F., Feng, C., Fu, Z., Foo, C.-S., Lin, G., & Liu, F. (2024). Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13642-13652). Liu, F., Wang, H., Chen, W., Sun, H., & Duan, Y. (2024). Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation. arXiv preprint arXiv:2403.09625. Wu, T., Yang, G., Li, Z., Zhang, K., Liu, Z., Guibas, L., Lin, D., & Wetzstein, G. (2024). GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.