Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung hochwertiger 3D-Inhalte aus Textbeschreibungen ist eine fortwährende Herausforderung im Bereich Computer Vision. Die Qualität der Ergebnisse hängt stark von den verfügbaren Trainingsdaten ab. Bestehende Datensätze sind oft begrenzt in ihrer Größe und Vielfalt und bieten unzureichende Annotationen. MARVEL-40M+ adressiert diese Problematik mit einem umfangreichen Datensatz, der über 8,9 Millionen 3D-Assets mit 40 Millionen Textannotationen umfasst. Diese stammen aus sieben etablierten 3D-Datensätzen und wurden durch eine innovative mehrstufige Annotationspipeline generiert.
Kernstück von MARVEL-40M+ ist die neuartige Annotationspipeline. Sie kombiniert Open-Source, vortrainierte Multi-View Vision-Language-Modelle (VLMs) und Large Language Models (LLMs), um automatisiert mehrstufige Beschreibungen zu erstellen. Diese reichen von detaillierten Beschreibungen mit 150-200 Wörtern bis hin zu prägnanten semantischen Tags mit 10-20 Wörtern. Diese Struktur ermöglicht sowohl eine feinkörnige 3D-Rekonstruktion als auch schnelles Prototyping.
Um die Genauigkeit der Annotationen zu verbessern und Halluzinationen der VLMs zu reduzieren, integriert die Pipeline menschliche Metadaten aus den ursprünglichen Datensätzen. Diese domänenspezifischen Informationen tragen zur Qualität und Vielfalt der Annotationen bei.
Ergänzend zu MARVEL-40M+ wurde MARVEL-FX3D entwickelt, eine zweistufige Pipeline zur Generierung von 3D-Inhalten aus Text. Im ersten Schritt wird Stable Diffusion mit den Annotationen von MARVEL-40M+ feinabgestimmt. Anschließend generiert ein vortrainiertes Image-zu-3D-Netzwerk texturierte 3D-Mesh-Modelle. Der gesamte Prozess dauert nur etwa 15 Sekunden.
Ausführliche Evaluierungen belegen, dass MARVEL-40M+ bestehende Datensätze in Bezug auf die Qualität der Annotationen und die sprachliche Vielfalt deutlich übertrifft. Sowohl GPT-4 als auch menschliche Gutachter bevorzugen in Vergleichsstudien mit großer Mehrheit die Ergebnisse von MARVEL-40M+. GPT-4 erreichte eine Gewinnrate von 72,41%, menschliche Evaluatoren sogar 73,40%.
MARVEL-40M+ und MARVEL-FX3D eröffnen neue Möglichkeiten für die Erstellung von 3D-Inhalten. Die hohe Qualität und Geschwindigkeit der Generierung ermöglichen vielfältige Anwendungen, von der schnellen Prototypenerstellung bis hin zur detaillierten 3D-Modellierung. Die Kombination aus detaillierten Beschreibungen und semantischen Tags bietet Nutzern flexible Kontrollmöglichkeiten über den Generierungsprozess.
Für Unternehmen wie Mindverse, die KI-gestützte Content-Lösungen anbieten, stellt MARVEL-40M+ eine wertvolle Ressource dar. Die verbesserte Qualität und Geschwindigkeit der 3D-Generierung kann die Entwicklung von innovativen Anwendungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssystemen vorantreiben und die Erstellung von hochwertigem 3D-Content vereinfachen.
Bibliographie Sinha, S., Khan, M. S., Usama, M., Sam, S., Stricker, D., Ali, S. A., & Afzal, M. Z. (2024). MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation. arXiv preprint arXiv:2411.17945. Lin, C.-H., Gao, J., Tang, L., Takikawa, T., Zeng, X., Huang, X., Kreis, K., Fidler, S., Liu, M.-Y., & Lin, T.-Y. (2023). Magic3D: High-Resolution Text-to-3D Content Creation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16252-16262). Chen, C., Yang, X., Yang, F., Feng, C., Fu, Z., Foo, C.-S., Lin, G., & Liu, F. (2024). Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13642-13652). Liu, F., Wang, H., Chen, W., Sun, H., & Duan, Y. (2024). Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation. arXiv preprint arXiv:2403.09625. Wu, T., Yang, G., Li, Z., Zhang, K., Liu, Z., Guibas, L., Lin, D., & Wetzstein, G. (2024). GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen