Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit, dreidimensionale Modelle von Objekten mit beweglichen Teilen zu erstellen, ist für eine Vielzahl von Anwendungen von entscheidender Bedeutung – von Robotik und physikalischen Simulationen bis hin zu Animationen und immersiven AR/VR-Erlebnissen. Traditionell ist dieser Prozess, insbesondere für Objekte mit vielen Freiheitsgraden (High-DoF), äusserst zeitaufwendig und erfordert spezialisiertes Fachwissen. Eine neue Forschungsarbeit mit dem Titel "Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects" stellt nun einen automatisierten Ansatz vor, der diese Herausforderung mittels künstlicher Intelligenz adressiert.
Artikulierte Objekte sind allgegenwärtig. Von einer einfachen Schublade bis hin zu komplexen Robotersystemen wie humanoiden Robotern oder Roboterarmen – sie alle bestehen aus mehreren Teilen, die durch Gelenke miteinander verbunden sind und sich auf spezifische Weisen bewegen können. Für Roboter ist ein tiefes Verständnis dieser kinematischen Strukturen und beweglichen Komponenten unerlässlich, um Objekte manipulieren oder ihre eigene artikulierte Form modellieren zu können. Solche Modelle, oft im Unified Robot Description Format (URDF) kodiert, sind grundlegend für Aufgaben wie Bewegungsplanung und die Entwicklung von Steuerungsstrategien.
Die Erstellung dieser Modelle birgt jedoch zwei Kernprobleme:
Bestehende Methoden stützen sich häufig auf Bewegungssequenzen oder stark kuratierte Datensätze, was die Skalierbarkeit und Anwendbarkeit auf neue, unbekannte Objekte einschränkt. Dies erfordert oft einen erheblichen manuellen Aufwand, insbesondere bei komplexen Systemen mit vielen Freiheitsgraden.
Kinematify adressiert diese Probleme durch ein automatisiertes Framework, das artikulierte 3D-Objekte direkt aus RGB-Bildern oder Textbeschreibungen synthetisiert. Das System operiert in einem sogenannten "Zero-Shot"-Kontext, was bedeutet, dass es keine vorherigen Bewegungsdaten oder spezifische Trainingsdaten für das jeweilige Objekt benötigt. Der Prozess lässt sich in mehrere Schritte unterteilen:
Zunächst generiert Kinematify mithilfe eines "Part-Aware 3D Foundation Models" segmentierte 3D-Meshes der einzelnen Teile des Objekts aus den Eingabedaten. Anschliessend wird ein Kontaktgraph erstellt, der potenzielle Beziehungen zwischen den Komponenten erfasst. Dieser Graph basiert auf der Auswertung gegenseitiger Abstände zwischen den Oberflächen der einzelnen Teile, wobei Paare, deren Mindestabstand unter einem bestimmten Schwellenwert liegt, als in Kontakt stehend identifiziert werden.
Der Kontaktgraph wird anschliessend in einen gerichteten kinematischen Baum umgewandelt. Hier kommt eine Monte-Carlo-Baumsuche (MCTS) zum Einsatz, eine heuristische Suchmethode, die durch Simulationen die beste Entscheidungsstrategie ermittelt. Der MCTS-Algorithmus von Kinematify nutzt ein Belohnungssystem, das strukturelle Prioritäten wie Hierarchie und Symmetrie berücksichtigt, um mehrdeutige Verbindungen aufzulösen. Die Belohnungsfunktion umfasst mehrere Terme:
Dieser MCTS-basierte Ansatz ermöglicht es, die kinematische Baumstruktur auch für komplexe, mehrfach verzweigte High-DoF-Objekte präzise zu inferieren.
Nach der Topologie-Inferenz werden die Gelenkparameter verfeinert. Hierfür verwendet Kinematify den DW-CAVL-Optimierungsansatz (Distance-Weighted Contact-Aware Virtual Linkage). Dieser Ansatz schätzt die Parameter für Rotations- und Prismengelenke aus der statischen Geometrie. Dabei werden insbesondere Bereiche in der Nähe von Kontakten berücksichtigt und Kollisionen unter virtuellen Bewegungen bestraft. Die Optimierung zielt darauf ab, physikalisch konsistente und funktional gültige Gelenkbeschreibungen zu erzeugen.
Die resultierenden Modelle können in Standardformate wie URDF exportiert und somit direkt in Robotik-Simulatoren (z.B. Isaac Sim) oder für die Bewegungsplanung (z.B. mit MoveIt) verwendet werden. Dies ermöglicht es Robotern, mit ihrer Umgebung zu interagieren, ohne dass die komplexen Modelle manuell erstellt werden müssen.
Die Wirksamkeit von Kinematify wurde in umfassenden Experimenten evaluiert, sowohl an Alltagsgegenständen als auch an verschiedenen Roboterplattformen mit unterschiedlichen Freiheitsgraden. Die Metriken umfassten:
Kinematify zeigte durchweg eine verbesserte Genauigkeit bei der Schätzung der Gelenkachsen und -positionen sowie eine höhere Treue der kinematischen Baumstrukturen im Vergleich zu früheren Methoden wie Articulate Anymesh und ArtGS. Insbesondere bei Robotern mit vielen Freiheitsgraden reduzierte Kinematify die Baumbearbeitungsdistanz erheblich, was auf eine präzisere Erfassung der komplexen Strukturen hinweist.
Eine End-to-End-Evaluierung, die direkt von RGB-Bildern ausgeht, zeigte ebenfalls vielversprechende Ergebnisse. Obwohl die Fehler im Vergleich zur reinen Geometrie-Verfolgung moderat anstiegen, ist die Methode auch in diesem praktischen Szenario leistungsfähig.
Ablationsstudien unterstrichen die Bedeutung der einzelnen Komponenten von Kinematify. Das Entfernen des MCTS-basierten Suchalgorithmus zugunsten einer einfacheren BFS-Strategie führte zu einer deutlich höheren Baumbearbeitungsdistanz, was die Fähigkeit von MCTS zur Auflösung von Mehrdeutigkeiten und zur Berücksichtigung struktureller Regularitäten belegt. Die Entfernung des DW-CAVL-Ankerterms zur Optimierung der Gelenkparameter verschlechterte die Gelenkgenauigkeit erheblich, was die Notwendigkeit einer präzisen, kontaktbewussten Optimierung hervorhebt.
Trotz der Fortschritte gibt es auch Limitationen. Eine genaue Segmentierung der Teile und ein mechanisch valider Kontaktgraph bleiben Annahmen. Fehlende oder überflüssige Kontakte können die Suchergebnisse beeinflussen. Zukünftige Arbeiten könnten die Schätzung der Kontaktzuverlässigkeit und die gemeinsame Verfeinerung von Segmentierung und Kontakten umfassen. Auch dekorative Geometrien, die zu falschen Kontakten führen, stellen eine Herausforderung dar, können aber durch eine adaptive Gewichtung der MCTS-Belohnungsfunktion, die den Symmetrie-Prior stärker betont, gemindert werden.
Kinematify stellt einen signifikanten Schritt in Richtung der automatisierten Synthese von High-DoF-Artikulationen dar. Durch die Kombination von ausgeklügelten Suchalgorithmen und geometriegetriebener Optimierung ermöglicht das Framework die Erstellung präziser und funktionaler Modelle aus einfachen Eingaben. Dies hat das Potenzial, die Entwicklung in der Robotik, Simulation und den Bereichen AR/VR erheblich zu beschleunigen und die Zugänglichkeit komplexer 3D-Modellierung zu erweitern. Die Fähigkeit, aus statischen Inputs interaktive Assets zu generieren, eröffnet neue Möglichkeiten für die Entwicklung intelligenter Systeme, die ihre Umgebung und sich selbst besser verstehen und manipulieren können.
Die fortlaufende Forschung in diesem Bereich wird voraussichtlich zu noch robusteren und vielseitigeren Methoden führen, die die Grenzen dessen, was KI im Bereich der 3D-Modellierung leisten kann, weiter verschieben.
Bibliography: - Wang, J., Wang, D., Hu, J., Zhang, Q., Yu, J., & Xu, L. (2025). Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects. arXiv preprint arXiv:2511.01294. - Wang, J., Wang, D., Hu, J., Zhang, Q., Yu, J., & Xu, L. (2025). Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects. Huggingface Paper Page. - Qiu, X., Yang, J., Wang, Y., Chen, Z., Wang, Y., Wang, T.-H., Xian, Z., & Gan, C. (2025). Articulate AnyMesh: Open-Vocabulary 3D Articulated Objects Modeling. arXiv preprint arXiv:2502.02590. - Le, L., Xie, J., Liang, W., Wang, H.-J., Yang, Y., Ma, Y. J., Vedder, K., Krishna, A., Jayaraman, D., & Eaton, E. (2025). Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model. arXiv preprint arXiv:2410.13882. - ROS Wiki. (2023). Unified Robot Description Format (URDF). Accessed: 2025-09-07. - Brawner, S. (2024). Solidworks to urdf exporter. https://github.com/ros/solidworks_urdf_exporter. Accessed: 2025-09-11. - Zhang, L., Zhang, Q., Jiang, H., Bai, Y., Yang, W., Xu, L., & Yu, J. (2025). Bang: Dividing 3d assets via generative exploded dynamics. ACM Trans. Graph., 44(4). - Mo, K., Zhu, S., Chang, A. X., Yi, L., Tripathi, S., Guibas, L. J., & Su, H. (2019). Partnet: A large-scale benchmark for fine-grained and hierarchical part-level 3d object understanding. In CVPR. - Pawlik, M., & Augsten, N. (2015). Efficient computation of the tree edit distance. ACM Trans. Database Syst., 40.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen