Die Entwicklung von KI-Modellen für die Bildverarbeitung schreitet rasant voran. Dabei stehen zwei wesentliche Ziele im Fokus: hohe Leistung und effiziente Nutzung von Ressourcen. Ein aktuelles Beispiel für diesen Trend ist EMOv2, ein hierarchisches, effizientes Modell, das die Grenzen von Leichtgewichtmodellen mit einer Größenordnung von 5 Millionen Parametern neu definiert.
Die steigende Komplexität von Bildverarbeitungsaufgaben, wie Objekterkennung, semantische Segmentierung und Bildgenerierung, erfordert immer leistungsfähigere Modelle. Gleichzeitig wächst der Bedarf an effizienten Modellen, die auch auf ressourcenbeschränkten Geräten, wie Smartphones oder Embedded Systems, eingesetzt werden können. Dies stellt Entwickler vor die Herausforderung, ein optimales Verhältnis zwischen Modellgröße, Rechenaufwand (FLOPs) und Leistung zu finden.
EMOv2 basiert auf einer neuartigen Architektur, die Inverted Residual Blocks (IRBs) aus dem Bereich der Convolutional Neural Networks (CNNs) mit Konzepten aus Transformer-Modellen kombiniert. Traditionell wurden IRBs hauptsächlich in CNNs verwendet, während Transformer-Modelle oft deutlich mehr Parameter aufweisen. EMOv2 überträgt das IRB-Konzept auf Attention-basierte Modelle und führt den Meta Mobile Block (MMBlock) ein, einen generischen Baustein für das Design von Leichtgewichtmodellen. Daraus abgeleitet ist der Improved Inverted Residual Mobile Block (i2RMB), der die Grundlage für die hierarchische Struktur von EMOv2 bildet.
Ein wichtiges Designkriterium von EMOv2 ist die Minimierung der Latenz für mobile Nutzer beim Herunterladen des Modells über 4G/5G. Die Entwickler haben die Leistungsgrenzen von Modellen mit 5 Millionen Parametern untersucht, um eine optimale Balance zwischen Downloadgeschwindigkeit und Modellperformance zu gewährleisten.
Umfangreiche Experimente in verschiedenen Bereichen der Bildverarbeitung, darunter Bilderkennung, dichte Vorhersagen und Bildgenerierung, belegen die Leistungsfähigkeit von EMOv2. Die verschiedenen Modellgrößen EMOv2-1M, EMOv2-2M und EMOv2-5M erreichen Top-1-Genauigkeiten von 72,3%, 75,8% bzw. 79,4% und übertreffen damit vergleichbare CNN- und Attention-basierte Modelle deutlich. In Kombination mit dem Objekterkennungsframework RetinaNet erzielt EMOv2-5M eine mittlere durchschnittliche Präzision (mAP) von 41,5, eine Steigerung von 2,6 Punkten gegenüber dem Vorgängermodell EMO-5M. Mit optimierten Trainingsmethoden erreicht EMOv2-5M sogar eine Top-1-Genauigkeit von 82,9% und setzt damit einen neuen Standard für Modelle dieser Größenordnung.
EMOv2 demonstriert das Potenzial von effizienten Leichtgewichtmodellen für die Bildverarbeitung. Die Architektur und die erzielten Ergebnisse eröffnen neue Möglichkeiten für den Einsatz von KI auf ressourcenbeschränkten Geräten. Zukünftige Forschung könnte sich auf die weitere Optimierung der Architektur, die Anpassung an spezifische Anwendungsfälle und die Integration in KI-gestützte Anwendungen konzentrieren. Insbesondere für Unternehmen wie Mindverse, die maßgeschneiderte KI-Lösungen entwickeln, bietet EMOv2 eine vielversprechende Basis für die Entwicklung innovativer Produkte, wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme. Die effiziente Architektur von EMOv2 könnte dazu beitragen, die Performance dieser Lösungen zu verbessern und ihren Einsatz auf mobilen Geräten zu ermöglichen.
Bibliographie: Zhang, J., Hu, T., He, H., Xue, Z., Wang, Y., Wang, C., Liu, Y., Li, X., & Tao, D. (2024). EMOv2: Pushing 5M Vision Model Frontier. arXiv preprint arXiv:2412.06674. Computer Science > Computer Vision and Pattern Recognition. (n.d.). arXiv. Retrieved from https://arxiv.org/list/cs.CV/recent Latest. (n.d.). Papers with Code. Retrieved from https://paperswithcode.com/latest Iandola, F. N., Han, S., Moskewicz, M. W., Ashraf, K., Dally, W. J., & Keutzer, K. (2016). SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5MB model size. arXiv preprint arXiv:1602.07360. ML. (n.d.). Infomate. Retrieved from https://infomate.club/ml/ Attention. (n.d.). Paper Reading. Retrieved from https://paperreading.club/category?cate=Attention Transformer. (n.d.). Paper Reading. Retrieved from https://paperreading.club/category?cate=Transformer