Automatisierte 3D-Modellierung von artikulierten Objekten durch Kinematify

Kategorien:

No items found.

Freigegeben:

November 11, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Forschungsarbeit "Kinematify" stellt eine automatisierte Methode zur Erstellung artikulierter 3D-Objekte aus statischen Bildern oder Textbeschreibungen vor.
Kinematify überwindet traditionelle Herausforderungen bei der Ableitung kinematischer Topologien und der Schätzung von Gelenkparametern für Objekte mit vielen Freiheitsgraden (High-DoF).
Das Framework nutzt eine Kombination aus Monte-Carlo-Baumsuche (MCTS) zur Strukturinferenz und einer geometriegetriebenen Optimierung (DW-CAVL) für die Gelenkparameter.
Die Ergebnisse können in Standardformate wie URDF exportiert werden, was Anwendungen in Robotik, Simulation und Animation ermöglicht.
Kinematify zeigt eine verbesserte Genauigkeit bei der Achsenwinkel- und -positionsbestimmung sowie eine höhere Treue der kinematischen Baumstrukturen im Vergleich zu früheren Methoden.
Eine vollständige End-to-End-Evaluierung, beginnend mit RGB-Bildern, unterstreicht die praktische Anwendbarkeit der Methode, auch wenn die Fehler in komplexeren Szenarien moderat ansteigen.

Revolution in der 3D-Modellierung: Kinematify ermöglicht die Synthese komplexer artikulierter Objekte

Die Fähigkeit, dreidimensionale Modelle von Objekten mit beweglichen Teilen zu erstellen, ist für eine Vielzahl von Anwendungen von entscheidender Bedeutung – von Robotik und physikalischen Simulationen bis hin zu Animationen und immersiven AR/VR-Erlebnissen. Traditionell ist dieser Prozess, insbesondere für Objekte mit vielen Freiheitsgraden (High-DoF), äusserst zeitaufwendig und erfordert spezialisiertes Fachwissen. Eine neue Forschungsarbeit mit dem Titel "Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects" stellt nun einen automatisierten Ansatz vor, der diese Herausforderung mittels künstlicher Intelligenz adressiert.

Die Herausforderung der Artikulation

Artikulierte Objekte sind allgegenwärtig. Von einer einfachen Schublade bis hin zu komplexen Robotersystemen wie humanoiden Robotern oder Roboterarmen – sie alle bestehen aus mehreren Teilen, die durch Gelenke miteinander verbunden sind und sich auf spezifische Weisen bewegen können. Für Roboter ist ein tiefes Verständnis dieser kinematischen Strukturen und beweglichen Komponenten unerlässlich, um Objekte manipulieren oder ihre eigene artikulierte Form modellieren zu können. Solche Modelle, oft im Unified Robot Description Format (URDF) kodiert, sind grundlegend für Aufgaben wie Bewegungsplanung und die Entwicklung von Steuerungsstrategien.

Die Erstellung dieser Modelle birgt jedoch zwei Kernprobleme:

Die Inferenz der kinematischen Topologie: Wie sind die einzelnen Teile miteinander verbunden und welche Hierarchie besteht zwischen ihnen?
Die Schätzung der Gelenkparameter: Wo genau befinden sich die Gelenkachsen und wie sind sie ausgerichtet?

Bestehende Methoden stützen sich häufig auf Bewegungssequenzen oder stark kuratierte Datensätze, was die Skalierbarkeit und Anwendbarkeit auf neue, unbekannte Objekte einschränkt. Dies erfordert oft einen erheblichen manuellen Aufwand, insbesondere bei komplexen Systemen mit vielen Freiheitsgraden.

Kinematify: Ein automatisierter Ansatz

Kinematify adressiert diese Probleme durch ein automatisiertes Framework, das artikulierte 3D-Objekte direkt aus RGB-Bildern oder Textbeschreibungen synthetisiert. Das System operiert in einem sogenannten "Zero-Shot"-Kontext, was bedeutet, dass es keine vorherigen Bewegungsdaten oder spezifische Trainingsdaten für das jeweilige Objekt benötigt. Der Prozess lässt sich in mehrere Schritte unterteilen:

1. Part-Aware 3D-Repräsentationen

Zunächst generiert Kinematify mithilfe eines "Part-Aware 3D Foundation Models" segmentierte 3D-Meshes der einzelnen Teile des Objekts aus den Eingabedaten. Anschliessend wird ein Kontaktgraph erstellt, der potenzielle Beziehungen zwischen den Komponenten erfasst. Dieser Graph basiert auf der Auswertung gegenseitiger Abstände zwischen den Oberflächen der einzelnen Teile, wobei Paare, deren Mindestabstand unter einem bestimmten Schwellenwert liegt, als in Kontakt stehend identifiziert werden.

2. Inferenz der kinematischen Topologie mittels MCTS

Der Kontaktgraph wird anschliessend in einen gerichteten kinematischen Baum umgewandelt. Hier kommt eine Monte-Carlo-Baumsuche (MCTS) zum Einsatz, eine heuristische Suchmethode, die durch Simulationen die beste Entscheidungsstrategie ermittelt. Der MCTS-Algorithmus von Kinematify nutzt ein Belohnungssystem, das strukturelle Prioritäten wie Hierarchie und Symmetrie berücksichtigt, um mehrdeutige Verbindungen aufzulösen. Die Belohnungsfunktion umfasst mehrere Terme:

R_struct: Bestraft unregelmässige Tiefen, übermässigen Aus-Grad und zu lange Bäume.
R_static: Bevorzugt eine Schwerpunktunterstützung, um das Gravitationsmoment um Gelenkrahmen zu reduzieren.
R_contact: Belohnt eine höhere durchschnittliche Kontaktstärke basierend auf der SDF-basierten bidirektionalen Nähe.
R_sym: Fördert gleiche Tiefen und gemeinsame Eltern innerhalb von Symmetrieclustern (z.B. Beine, die am selben Rumpf befestigt sind).
R_hier: Entmutigt Kinder, die im Volumen wesentlich grösser als ihre Eltern sind.

Dieser MCTS-basierte Ansatz ermöglicht es, die kinematische Baumstruktur auch für komplexe, mehrfach verzweigte High-DoF-Objekte präzise zu inferieren.

3. Schätzung der Gelenkparameter mit DW-CAVL

Nach der Topologie-Inferenz werden die Gelenkparameter verfeinert. Hierfür verwendet Kinematify den DW-CAVL-Optimierungsansatz (Distance-Weighted Contact-Aware Virtual Linkage). Dieser Ansatz schätzt die Parameter für Rotations- und Prismengelenke aus der statischen Geometrie. Dabei werden insbesondere Bereiche in der Nähe von Kontakten berücksichtigt und Kollisionen unter virtuellen Bewegungen bestraft. Die Optimierung zielt darauf ab, physikalisch konsistente und funktional gültige Gelenkbeschreibungen zu erzeugen.

Anwendungen und Evaluierung

Die resultierenden Modelle können in Standardformate wie URDF exportiert und somit direkt in Robotik-Simulatoren (z.B. Isaac Sim) oder für die Bewegungsplanung (z.B. mit MoveIt) verwendet werden. Dies ermöglicht es Robotern, mit ihrer Umgebung zu interagieren, ohne dass die komplexen Modelle manuell erstellt werden müssen.

Die Wirksamkeit von Kinematify wurde in umfassenden Experimenten evaluiert, sowohl an Alltagsgegenständen als auch an verschiedenen Roboterplattformen mit unterschiedlichen Freiheitsgraden. Die Metriken umfassten:

Achsenwinkel-Fehler: Die Winkelabweichung zwischen den vorhergesagten und den tatsächlichen Gelenkachsen.
Achsenpositionsfehler: Der euklidische Abstand zwischen vorhergesagten und tatsächlichen Gelenkpositionen.
Baumbearbeitungsdistanz (TED): Ein Mass für die Ähnlichkeit zwischen dem vorhergesagten und dem tatsächlichen kinematischen Baum.

Kinematify zeigte durchweg eine verbesserte Genauigkeit bei der Schätzung der Gelenkachsen und -positionen sowie eine höhere Treue der kinematischen Baumstrukturen im Vergleich zu früheren Methoden wie Articulate Anymesh und ArtGS. Insbesondere bei Robotern mit vielen Freiheitsgraden reduzierte Kinematify die Baumbearbeitungsdistanz erheblich, was auf eine präzisere Erfassung der komplexen Strukturen hinweist.

Eine End-to-End-Evaluierung, die direkt von RGB-Bildern ausgeht, zeigte ebenfalls vielversprechende Ergebnisse. Obwohl die Fehler im Vergleich zur reinen Geometrie-Verfolgung moderat anstiegen, ist die Methode auch in diesem praktischen Szenario leistungsfähig.

Ablationsstudien und Grenzen

Ablationsstudien unterstrichen die Bedeutung der einzelnen Komponenten von Kinematify. Das Entfernen des MCTS-basierten Suchalgorithmus zugunsten einer einfacheren BFS-Strategie führte zu einer deutlich höheren Baumbearbeitungsdistanz, was die Fähigkeit von MCTS zur Auflösung von Mehrdeutigkeiten und zur Berücksichtigung struktureller Regularitäten belegt. Die Entfernung des DW-CAVL-Ankerterms zur Optimierung der Gelenkparameter verschlechterte die Gelenkgenauigkeit erheblich, was die Notwendigkeit einer präzisen, kontaktbewussten Optimierung hervorhebt.

Trotz der Fortschritte gibt es auch Limitationen. Eine genaue Segmentierung der Teile und ein mechanisch valider Kontaktgraph bleiben Annahmen. Fehlende oder überflüssige Kontakte können die Suchergebnisse beeinflussen. Zukünftige Arbeiten könnten die Schätzung der Kontaktzuverlässigkeit und die gemeinsame Verfeinerung von Segmentierung und Kontakten umfassen. Auch dekorative Geometrien, die zu falschen Kontakten führen, stellen eine Herausforderung dar, können aber durch eine adaptive Gewichtung der MCTS-Belohnungsfunktion, die den Symmetrie-Prior stärker betont, gemindert werden.

Fazit und Ausblick

Kinematify stellt einen signifikanten Schritt in Richtung der automatisierten Synthese von High-DoF-Artikulationen dar. Durch die Kombination von ausgeklügelten Suchalgorithmen und geometriegetriebener Optimierung ermöglicht das Framework die Erstellung präziser und funktionaler Modelle aus einfachen Eingaben. Dies hat das Potenzial, die Entwicklung in der Robotik, Simulation und den Bereichen AR/VR erheblich zu beschleunigen und die Zugänglichkeit komplexer 3D-Modellierung zu erweitern. Die Fähigkeit, aus statischen Inputs interaktive Assets zu generieren, eröffnet neue Möglichkeiten für die Entwicklung intelligenter Systeme, die ihre Umgebung und sich selbst besser verstehen und manipulieren können.

Die fortlaufende Forschung in diesem Bereich wird voraussichtlich zu noch robusteren und vielseitigeren Methoden führen, die die Grenzen dessen, was KI im Bereich der 3D-Modellierung leisten kann, weiter verschieben.

Bibliography: - Wang, J., Wang, D., Hu, J., Zhang, Q., Yu, J., & Xu, L. (2025). Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects. arXiv preprint arXiv:2511.01294. - Wang, J., Wang, D., Hu, J., Zhang, Q., Yu, J., & Xu, L. (2025). Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects. Huggingface Paper Page. - Qiu, X., Yang, J., Wang, Y., Chen, Z., Wang, Y., Wang, T.-H., Xian, Z., & Gan, C. (2025). Articulate AnyMesh: Open-Vocabulary 3D Articulated Objects Modeling. arXiv preprint arXiv:2502.02590. - Le, L., Xie, J., Liang, W., Wang, H.-J., Yang, Y., Ma, Y. J., Vedder, K., Krishna, A., Jayaraman, D., & Eaton, E. (2025). Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model. arXiv preprint arXiv:2410.13882. - ROS Wiki. (2023). Unified Robot Description Format (URDF). Accessed: 2025-09-07. - Brawner, S. (2024). Solidworks to urdf exporter. https://github.com/ros/solidworks_urdf_exporter. Accessed: 2025-09-11. - Zhang, L., Zhang, Q., Jiang, H., Bai, Y., Yang, W., Xu, L., & Yu, J. (2025). Bang: Dividing 3d assets via generative exploded dynamics. ACM Trans. Graph., 44(4). - Mo, K., Zhu, S., Chang, A. X., Yi, L., Tripathi, S., Guibas, L. J., & Su, H. (2019). Partnet: A large-scale benchmark for fine-grained and hierarchical part-level 3d object understanding. In CVPR. - Pawlik, M., & Augsten, N. (2015). Efficient computation of the tree edit distance. ACM Trans. Database Syst., 40.