Das Fundamental AI Research (FAIR) Team von Meta hat fünf neue Projekte vorgestellt, die das Unternehmen seinem Ziel, fortschrittliche maschinelle Intelligenz (AMI) zu entwickeln, näher bringen sollen. Die neuen Entwicklungen konzentrieren sich vor allem auf die Verbesserung der KI-Wahrnehmung – der Fähigkeit von Maschinen, sensorische Informationen zu verarbeiten und zu interpretieren – sowie auf Fortschritte in den Bereichen Sprachmodelle, Robotik und kollaborative KI-Agenten.
Meta verfolgt das Ziel, Maschinen zu entwickeln, „die in der Lage sind, sensorische Informationen über die Welt um uns herum zu erfassen, zu verarbeiten und zu interpretieren und diese Informationen zu nutzen, um Entscheidungen mit menschenähnlicher Intelligenz und Geschwindigkeit zu treffen.“ Die fünf neuen Projekte stellen verschiedene, aber miteinander verbundene Bemühungen dar, dieses ambitionierte Ziel zu erreichen.
Im Zentrum der neuen Veröffentlichungen steht der Perception Encoder, ein umfangreicher Vision Encoder, der für verschiedene Bild- und Videoaufgaben entwickelt wurde. Vision Encoder fungieren als die „Augen“ von KI-Systemen und ermöglichen es ihnen, visuelle Daten zu verstehen.
Meta betont die zunehmende Herausforderung, Encoder zu entwickeln, die den Anforderungen fortschrittlicher KI gerecht werden. Diese müssen Bild und Video gleichermaßen effektiv verarbeiten, robust gegenüber schwierigen Bedingungen sein und auch potenziellen Angriffen standhalten. Der ideale Encoder sollte laut Meta eine breite Palette von Konzepten erkennen und gleichzeitig subtile Details unterscheiden – beispielsweise einen Stachelrochen am Meeresboden, einen kleinen Stieglitz im Hintergrund eines Bildes oder ein Aguti auf einer Nachtsichtkamera.
Meta behauptet, der Perception Encoder erziele „außergewöhnliche Leistungen bei der Zero-Shot-Klassifizierung und -Retrieval von Bildern und Videos und übertreffe dabei alle existierenden Open-Source- und proprietären Modelle für solche Aufgaben.“ Darüber hinaus sollen sich seine Wahrnehmungsstärken gut auf Sprachaufgaben übertragen lassen.
In Kombination mit einem großen Sprachmodell (LLM) soll der Encoder andere Vision Encoder in Bereichen wie der Beantwortung visueller Fragen (VQA), der Bildbeschreibung, dem Dokumentenverständnis und der Verknüpfung von Text mit bestimmten Bildregionen übertreffen. Er soll auch die Leistung bei Aufgaben verbessern, die traditionell schwierig für LLMs sind, wie das Verstehen räumlicher Beziehungen (z. B. „wenn sich ein Objekt hinter einem anderen befindet“) oder die Kamerabewegung relativ zu einem Objekt.
Ergänzend zum Encoder wird das Perception Language Model (PLM) vorgestellt, ein offenes und reproduzierbares Vision-Sprachmodell, das auf komplexe visuelle Erkennungsaufgaben abzielt. PLM wurde mit großen synthetischen Datensätzen und offenen Vision-Sprachdatensätzen trainiert, explizit ohne Wissen aus externen proprietären Modellen zu destillieren.
Um Lücken in bestehenden Daten zum Videoverständnis zu schließen, hat das FAIR-Team 2,5 Millionen neue, von Menschen gekennzeichnete Stichproben gesammelt, die sich auf detaillierte Video-Fragenbeantwortung und räumlich-zeitliche Beschreibungen konzentrieren. Laut Meta ist dies der „größte Datensatz seiner Art, der bisher existiert.“
Meta Locate 3D schließt die Lücke zwischen Sprachbefehlen und physischen Aktionen. Dieses End-to-End-Modell soll es Robotern ermöglichen, Objekte in einer 3D-Umgebung anhand von natürlichsprachlichen Abfragen präzise zu lokalisieren.
Meta Locate 3D verarbeitet 3D-Punktwolken direkt von RGB-D-Sensoren. Bei einer textuellen Aufforderung wie „Blumenvase in der Nähe des Fernsehtisches“ berücksichtigt das System räumliche Beziehungen und den Kontext, um das richtige Objekt zu identifizieren und es beispielsweise von einer „Vase auf dem Tisch“ zu unterscheiden.
Meta veröffentlicht nun die Modellgewichte für seinen Dynamic Byte Latent Transformer mit 8 Milliarden Parametern. Diese Architektur stellt eine Abkehr von traditionellen tokenbasierten Sprachmodellen dar und arbeitet stattdessen auf Byte-Ebene. Meta behauptet, dieser Ansatz erreiche eine vergleichbare Leistung bei gleichzeitig deutlich verbesserter Inferenzeffizienz und Robustheit.
Das letzte Projekt, Collaborative Reasoner, befasst sich mit der komplexen Herausforderung, KI-Agenten zu entwickeln, die effektiv mit Menschen oder anderen KIs zusammenarbeiten können. Meta stellt fest, dass menschliche Zusammenarbeit oft zu besseren Ergebnissen führt, und zielt darauf ab, KI mit ähnlichen Fähigkeiten auszustatten, beispielsweise für Aufgaben wie Hilfe bei Hausaufgaben oder Vorbereitung auf Vorstellungsgespräche.
Diese fünf Veröffentlichungen unterstreichen Metas anhaltende Investitionen in die Grundlagenforschung der KI, insbesondere in die Entwicklung von Bausteinen für Maschinen, die die Welt auf menschenähnlichere Weise wahrnehmen, verstehen und mit ihr interagieren können.
Bibliographie: https://www.artificialintelligence-news.com/news/meta-fair-advances-human-like-ai-five-major-releases/ https://x.com/Gadget_Ry/status/1912899012937515447 https://www.artificialintelligence-news.com/categories/ai-companies/meta-facebook/ https://x.com/AlHadath_net/status/1912910216129052910 https://www.ariancaspiandata.com/newsdtl/12 https://en.wikipedia.org/wiki/Meta_AI https://ai.meta.com/research/ https://m.economictimes.com/tech/technology/meta-plans-major-investment-into-ai-powered-humanoid-robots/articleshow/118255578.cms https://www.youtube.com/watch?v=ei123SmRx4wEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen