Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die umfassende Bewertung von Multimodalen Großen Sprachmodellen (MLLMs) hat in der Forschungsgemeinschaft zuletzt viel Aufmerksamkeit erregt. Die bestehenden Benchmarks weisen jedoch mehrere gemeinsame Barrieren auf, die es erschweren, die signifikanten Herausforderungen zu messen, denen Modelle in der realen Welt gegenüberstehen. Zu diesen Barrieren gehören:
Um diese Herausforderungen zu bewältigen, wurde MME-RealWorld ins Leben gerufen. Im Rahmen dieses Projekts wurden mehr als 300.000 Bilder aus öffentlichen Datensätzen und dem Internet gesammelt, von denen 13.366 qualitativ hochwertige Bilder für die Annotation ausgewählt wurden. Diese Aufgabe wurde von 25 professionellen Annotatoren und 7 Experten für MLLMs durchgeführt, was zu 29.429 Frage-Antwort-Paaren führte, die 43 Unteraufgaben in fünf realen Szenarien abdecken, die selbst für Menschen extrem herausfordernd sind.
MME-RealWorld unterscheidet sich von bestehenden Benchmarks durch fünf Hauptmerkmale:
Wir führten eine umfassende Evaluation mit 28 prominenten MLLMs durch, darunter GPT-4o, Gemini 1.5 Pro und Claude 3.5 Sonnet. Unsere Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle Schwierigkeiten mit unseren Benchmarks haben, wobei keines von ihnen eine Genauigkeit von 60% erreicht. Die Herausforderungen bei der Wahrnehmung hochauflösender Bilder und dem Verständnis komplexer realer Szenarien bleiben dringende Probleme, die angegangen werden müssen.
Die Evaluierungsergebnisse verschiedener MLLMs auf den Wahrnehmungsaufgaben und den Aufgaben des logischen Denkens zeigen deutliche Unterschiede zwischen den Modellen. Frühe Arbeiten wie LLaVA zeigen eine klare Lücke zu fortschrittlicheren Modellen.
MME-RealWorld ist der größte manuell annotierte Benchmark, der sich auf reale Anwendungen konzentriert und die höchste Auflösung bietet. Wir hoffen, dass MME-RealWorld die Forschungsgemeinschaft dazu inspiriert, dieses Feld weiter zu verbessern und weiterzuentwickeln. Die Daten und der Evaluierungscode sind unter https://mme-realworld.github.io/ verfügbar.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen