Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlichen Intelligenzen, komplexe visuelle Informationen über längere Zeiträume hinweg zu analysieren und daraus logische Schlüsse zu ziehen, stellt eine zentrale Herausforderung in der aktuellen Forschung dar. Insbesondere bei multimodalen Large Language Models (MLLMs), die sowohl Text- als auch Bilddaten verarbeiten, treten oft Schwierigkeiten bei der präzisen visuellen Verankerung und der Vermeidung von "Halluzinationen" – also unbegründeten Schlussfolgerungen – auf. Eine neue Entwicklung aus der Forschung der Peking University, das "Conan"-Framework, verspricht hier signifikante Fortschritte, indem es einen mehrstufigen Ansatz zur evidenzbasierten Videoanalyse einführt, der an die Arbeitsweise eines Detektivs erinnert. Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir die Funktionsweise, die Innovationen und die potenziellen Auswirkungen dieser Technologie für B2B-Anwendungen.
Moderne KI-Systeme haben beeindruckende Fortschritte in der Bild- und Videoverarbeitung erzielt. Doch wenn es darum geht, über eine Sequenz von Bildern oder Videoframes hinweg kohärente, mehrstufige Schlussfolgerungen zu ziehen, stossen selbst fortschrittlichste MLLMs an ihre Grenzen. Herkömmliche, auf Reinforcement Learning (RL) basierende Methoden zur Verbesserung der Schlussfolgerungsfähigkeiten neigen dazu, sich auf textbasierte Ketten zu verlassen. Dies kann zu Schlussfolgerungen führen, die zwar logisch erscheinen mögen, aber keine ausreichende visuelle Verankerung besitzen und somit als Halluzinationen klassifiziert werden müssen. Ansätze, die auf der Abfrage einzelner Frames basieren, verbessern zwar die visuelle Verankerung, kämpfen jedoch weiterhin mit der ungenauen Lokalisierung relevanter Beweisbilder und der Integration von Informationen über verschiedene Zeitpunkte hinweg.
Das "Conan"-Framework zielt darauf ab, diese Lücke zu schliessen, indem es einen Prozess etabliert, der dem eines Detektivs nachempfunden ist. Ein Detektiv identifiziert relevante Hinweise, analysiert diese, zieht daraus Schlüsse und entscheidet dann, welche nächsten Schritte zur weiteren Untersuchung notwendig sind. Übertragen auf die visuelle Analyse bedeutet dies, dass Conan folgende Kernfunktionen integriert:
Um diese Fähigkeiten zu realisieren, stützt sich Conan auf zwei wesentliche technische Säulen:
Die Entwicklung eines leistungsfähigen Modells erfordert eine grosse Menge an Trainingsdaten. Das Forschungsteam hat hierfür "Conan-91K" erstellt, einen grossen Datensatz mit automatisch generierten Schlussfolgerungsspuren. Dieser Datensatz umfasst detaillierte Informationen über:
- Frame-Identifikation: Welche Frames sind für bestimmte Ereignisse oder Fragen entscheidend? - Evidenzbasierte Schlussfolgerungen: Wie lassen sich Informationen aus diesen Frames zu logischen Ketten verknüpfen? - Aktionsentscheidungen: Wann ist der richtige Zeitpunkt, um eine Schlussfolgerung zu ziehen, und wann muss weiter geforscht werden?Dieser strukturierte Datensatz ermöglicht es dem Modell, nicht nur Muster zu erkennen, sondern auch die zugrundeliegende Logik des Schlussfolgerns zu erlernen.
Das Herzstück des Trainingsansatzes ist das "Identification-Reasoning-Action (AIR) RLVR"-Framework, welches eine mehrstufige progressive Kaltstartstrategie nutzt. Dieses Framework wurde entwickelt, um das visuelle Schlussfolgern über mehrere Schritte hinweg zu verbessern:
Der progressive Kaltstartansatz ermöglicht es dem Modell, schrittweise komplexere Schlussfolgerungsfähigkeiten zu entwickeln, indem es zunächst grundlegende visuelle Identifikationsaufgaben meistert und darauf aufbauend immer anspruchsvollere Reasoning- und Aktionsschritte erlernt.
Die Evaluierung des Conan-Frameworks auf sechs verschiedenen Benchmarks für mehrstufige Video-Reasoning-Aufgaben zeigte eine durchschnittliche Genauigkeitssteigerung von über 10% im Vergleich zu bestehenden Modellen wie Qwen2.5-VL-7B-Instruct. Diese signifikante Leistungsverbesserung unterstreicht die Effektivität des evidenzbasierten und progressiven Lernansatzes. Darüber hinaus konnte Conan seine Robustheit und Skalierbarkeit auch bei der Analyse langer Videos unter Beweis stellen, was für reale Anwendungen von grosser Bedeutung ist.
Die Fortschritte, die Conan im Bereich der multiskalaren visuellen Evidenzanalyse erzielt, eröffnen vielfältige Möglichkeiten für B2B-Anwendungen. Die Fähigkeit, komplexe visuelle Informationen präzise zu interpretieren und daraus fundierte Schlüsse zu ziehen, kann in verschiedenen Branchen von grossem Nutzen sein:
Die verbesserte visuelle Verankerung und die reduzierte Anfälligkeit für Halluzinationen sind dabei entscheidende Faktoren, die die Zuverlässigkeit und Vertrauenswürdigkeit von KI-Systemen in diesen kritischen Anwendungsbereichen erhöhen.
Das "Conan"-Framework stellt einen bedeutenden Schritt in der Entwicklung von KI-Systemen dar, die in der Lage sind, visuelle Informationen auf eine Weise zu verarbeiten, die der menschlichen deduktiven und explorativen Intelligenz ähnelt. Die Kombination aus einem sorgfältig konstruierten Datensatz und einem innovativen Trainingsframework ermöglicht es, die Grenzen des multiskalaren Video-Reasonings zu erweitern. Für Unternehmen, die auf präzise und zuverlässige visuelle Analyse angewiesen sind, bietet diese Entwicklung das Potenzial, operative Effizienz zu steigern, Risiken zu minimieren und neue Erkenntnisse aus komplexen visuellen Daten zu gewinnen. Die kontinuierliche Weiterentwicklung solcher evidenzbasierten KI-Systeme wird entscheidend sein, um die nächste Generation intelligenter Anwendungen zu realisieren und Mindverse als Ihren KI-Partner zu etablieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen