KI für Ihr Unternehmen – Jetzt Demo buchen

Neue Initiativen von Metas FAIR-Team zur Verbesserung menschenähnlicher KI

Kategorien:
No items found.
Freigegeben:
April 18, 2025

Artikel jetzt als Podcast anhören

Metas FAIR-Team präsentiert fünf neue Projekte für menschenähnlichere KI

Das Fundamental AI Research (FAIR) Team von Meta hat fünf neue Projekte vorgestellt, die das Unternehmen seinem Ziel, fortschrittliche maschinelle Intelligenz (AMI) zu entwickeln, näher bringen sollen. Die neuen Entwicklungen konzentrieren sich vor allem auf die Verbesserung der KI-Wahrnehmung – der Fähigkeit von Maschinen, sensorische Informationen zu verarbeiten und zu interpretieren – sowie auf Fortschritte in den Bereichen Sprachmodelle, Robotik und kollaborative KI-Agenten.

Meta verfolgt das Ziel, Maschinen zu entwickeln, „die in der Lage sind, sensorische Informationen über die Welt um uns herum zu erfassen, zu verarbeiten und zu interpretieren und diese Informationen zu nutzen, um Entscheidungen mit menschenähnlicher Intelligenz und Geschwindigkeit zu treffen.“ Die fünf neuen Projekte stellen verschiedene, aber miteinander verbundene Bemühungen dar, dieses ambitionierte Ziel zu erreichen.

Perception Encoder: Schärfere „Sicht“ für KI

Im Zentrum der neuen Veröffentlichungen steht der Perception Encoder, ein umfangreicher Vision Encoder, der für verschiedene Bild- und Videoaufgaben entwickelt wurde. Vision Encoder fungieren als die „Augen“ von KI-Systemen und ermöglichen es ihnen, visuelle Daten zu verstehen.

Meta betont die zunehmende Herausforderung, Encoder zu entwickeln, die den Anforderungen fortschrittlicher KI gerecht werden. Diese müssen Bild und Video gleichermaßen effektiv verarbeiten, robust gegenüber schwierigen Bedingungen sein und auch potenziellen Angriffen standhalten. Der ideale Encoder sollte laut Meta eine breite Palette von Konzepten erkennen und gleichzeitig subtile Details unterscheiden – beispielsweise einen Stachelrochen am Meeresboden, einen kleinen Stieglitz im Hintergrund eines Bildes oder ein Aguti auf einer Nachtsichtkamera.

Meta behauptet, der Perception Encoder erziele „außergewöhnliche Leistungen bei der Zero-Shot-Klassifizierung und -Retrieval von Bildern und Videos und übertreffe dabei alle existierenden Open-Source- und proprietären Modelle für solche Aufgaben.“ Darüber hinaus sollen sich seine Wahrnehmungsstärken gut auf Sprachaufgaben übertragen lassen.

In Kombination mit einem großen Sprachmodell (LLM) soll der Encoder andere Vision Encoder in Bereichen wie der Beantwortung visueller Fragen (VQA), der Bildbeschreibung, dem Dokumentenverständnis und der Verknüpfung von Text mit bestimmten Bildregionen übertreffen. Er soll auch die Leistung bei Aufgaben verbessern, die traditionell schwierig für LLMs sind, wie das Verstehen räumlicher Beziehungen (z. B. „wenn sich ein Objekt hinter einem anderen befindet“) oder die Kamerabewegung relativ zu einem Objekt.

Perception Language Model (PLM): Offene Forschung im Bereich Vision-Sprache

Ergänzend zum Encoder wird das Perception Language Model (PLM) vorgestellt, ein offenes und reproduzierbares Vision-Sprachmodell, das auf komplexe visuelle Erkennungsaufgaben abzielt. PLM wurde mit großen synthetischen Datensätzen und offenen Vision-Sprachdatensätzen trainiert, explizit ohne Wissen aus externen proprietären Modellen zu destillieren.

Um Lücken in bestehenden Daten zum Videoverständnis zu schließen, hat das FAIR-Team 2,5 Millionen neue, von Menschen gekennzeichnete Stichproben gesammelt, die sich auf detaillierte Video-Fragenbeantwortung und räumlich-zeitliche Beschreibungen konzentrieren. Laut Meta ist dies der „größte Datensatz seiner Art, der bisher existiert.“

Meta Locate 3D: Situationsbewusstsein für Roboter

Meta Locate 3D schließt die Lücke zwischen Sprachbefehlen und physischen Aktionen. Dieses End-to-End-Modell soll es Robotern ermöglichen, Objekte in einer 3D-Umgebung anhand von natürlichsprachlichen Abfragen präzise zu lokalisieren.

Meta Locate 3D verarbeitet 3D-Punktwolken direkt von RGB-D-Sensoren. Bei einer textuellen Aufforderung wie „Blumenvase in der Nähe des Fernsehtisches“ berücksichtigt das System räumliche Beziehungen und den Kontext, um das richtige Objekt zu identifizieren und es beispielsweise von einer „Vase auf dem Tisch“ zu unterscheiden.

Dynamic Byte Latent Transformer: Effiziente und robuste Sprachmodellierung

Meta veröffentlicht nun die Modellgewichte für seinen Dynamic Byte Latent Transformer mit 8 Milliarden Parametern. Diese Architektur stellt eine Abkehr von traditionellen tokenbasierten Sprachmodellen dar und arbeitet stattdessen auf Byte-Ebene. Meta behauptet, dieser Ansatz erreiche eine vergleichbare Leistung bei gleichzeitig deutlich verbesserter Inferenzeffizienz und Robustheit.

Collaborative Reasoner: Fortschritte bei sozial intelligenten KI-Agenten

Das letzte Projekt, Collaborative Reasoner, befasst sich mit der komplexen Herausforderung, KI-Agenten zu entwickeln, die effektiv mit Menschen oder anderen KIs zusammenarbeiten können. Meta stellt fest, dass menschliche Zusammenarbeit oft zu besseren Ergebnissen führt, und zielt darauf ab, KI mit ähnlichen Fähigkeiten auszustatten, beispielsweise für Aufgaben wie Hilfe bei Hausaufgaben oder Vorbereitung auf Vorstellungsgespräche.

Diese fünf Veröffentlichungen unterstreichen Metas anhaltende Investitionen in die Grundlagenforschung der KI, insbesondere in die Entwicklung von Bausteinen für Maschinen, die die Welt auf menschenähnlichere Weise wahrnehmen, verstehen und mit ihr interagieren können.

Bibliographie: https://www.artificialintelligence-news.com/news/meta-fair-advances-human-like-ai-five-major-releases/ https://x.com/Gadget_Ry/status/1912899012937515447 https://www.artificialintelligence-news.com/categories/ai-companies/meta-facebook/ https://x.com/AlHadath_net/status/1912910216129052910 https://www.ariancaspiandata.com/newsdtl/12 https://en.wikipedia.org/wiki/Meta_AI https://ai.meta.com/research/ https://m.economictimes.com/tech/technology/meta-plans-major-investment-into-ai-powered-humanoid-robots/articleshow/118255578.cms https://www.youtube.com/watch?v=ei123SmRx4w
Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen