KI für Ihr Unternehmen – Jetzt Demo buchen

Fortschritte in der KI-gestützten Videoanalyse durch das Conan-Framework

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Das "Conan"-Framework verbessert die multiskalare Videoanalyse durch einen mehrstufigen Ansatz.
    • Es kombiniert visuelle Verankerung und schlussfolgernde Fähigkeiten, ähnlich der Arbeitsweise eines Detektivs.
    • Die Methode adressiert Herausforderungen wie unzureichende visuelle Verankerung und Halluzinationen in bestehenden MLLMs.
    • Ein neuartiger progressiver Trainingsansatz, das "Identification-Reasoning-Action (AIR) RLVR"-Framework, wird eingesetzt.
    • Das System übertrifft aktuelle Modelle auf verschiedenen Benchmarks für Video-Reasoning-Aufgaben.
    • Es zeigt zudem eine hohe Skalierbarkeit und Robustheit bei der Analyse langer Videos.

    Fortschrittliches Schlussfolgern in der KI: Das "Conan"-Framework und seine Bedeutung für die visuelle Analyse

    Die Fähigkeit von Künstlichen Intelligenzen, komplexe visuelle Informationen über längere Zeiträume hinweg zu analysieren und daraus logische Schlüsse zu ziehen, stellt eine zentrale Herausforderung in der aktuellen Forschung dar. Insbesondere bei multimodalen Large Language Models (MLLMs), die sowohl Text- als auch Bilddaten verarbeiten, treten oft Schwierigkeiten bei der präzisen visuellen Verankerung und der Vermeidung von "Halluzinationen" – also unbegründeten Schlussfolgerungen – auf. Eine neue Entwicklung aus der Forschung der Peking University, das "Conan"-Framework, verspricht hier signifikante Fortschritte, indem es einen mehrstufigen Ansatz zur evidenzbasierten Videoanalyse einführt, der an die Arbeitsweise eines Detektivs erinnert. Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir die Funktionsweise, die Innovationen und die potenziellen Auswirkungen dieser Technologie für B2B-Anwendungen.

    Die Herausforderung der multiskalaren visuellen Evidenz

    Moderne KI-Systeme haben beeindruckende Fortschritte in der Bild- und Videoverarbeitung erzielt. Doch wenn es darum geht, über eine Sequenz von Bildern oder Videoframes hinweg kohärente, mehrstufige Schlussfolgerungen zu ziehen, stossen selbst fortschrittlichste MLLMs an ihre Grenzen. Herkömmliche, auf Reinforcement Learning (RL) basierende Methoden zur Verbesserung der Schlussfolgerungsfähigkeiten neigen dazu, sich auf textbasierte Ketten zu verlassen. Dies kann zu Schlussfolgerungen führen, die zwar logisch erscheinen mögen, aber keine ausreichende visuelle Verankerung besitzen und somit als Halluzinationen klassifiziert werden müssen. Ansätze, die auf der Abfrage einzelner Frames basieren, verbessern zwar die visuelle Verankerung, kämpfen jedoch weiterhin mit der ungenauen Lokalisierung relevanter Beweisbilder und der Integration von Informationen über verschiedene Zeitpunkte hinweg.

    Conan: Ein detektivischer Ansatz zur Problemlösung

    Das "Conan"-Framework zielt darauf ab, diese Lücke zu schliessen, indem es einen Prozess etabliert, der dem eines Detektivs nachempfunden ist. Ein Detektiv identifiziert relevante Hinweise, analysiert diese, zieht daraus Schlüsse und entscheidet dann, welche nächsten Schritte zur weiteren Untersuchung notwendig sind. Übertragen auf die visuelle Analyse bedeutet dies, dass Conan folgende Kernfunktionen integriert:

    • Identifikation von Kontext- und Evidenzframes: Das System lernt, welche Videoframes für die Beantwortung einer Frage oder das Ziehen einer Schlussfolgerung relevant sind. Dies geht über die blosse Erkennung von Objekten hinaus und umfasst das Verständnis des zeitlichen und räumlichen Kontexts.
    • Evidenzbasiertes Schlussfolgern über Framegrenzen hinweg: Anstatt isolierte Informationen aus einzelnen Frames zu verarbeiten, verknüpft Conan Hinweise aus verschiedenen Frames, um ein umfassendes Verständnis der Situation zu entwickeln.
    • Adaptive Aktionsentscheidung: Das Modell kann basierend auf der bisher gesammelten Evidenz entscheiden, ob eine Schlussfolgerung gezogen werden kann oder ob weitere Informationen (z.B. durch die Analyse weiterer Frames oder die Durchführung spezifischer visueller Abfragen) benötigt werden.

    Technische Innovationen und das AIR-Framework

    Um diese Fähigkeiten zu realisieren, stützt sich Conan auf zwei wesentliche technische Säulen:

    Conan-91K: Ein umfangreicher Datensatz für das Schlussfolgern

    Die Entwicklung eines leistungsfähigen Modells erfordert eine grosse Menge an Trainingsdaten. Das Forschungsteam hat hierfür "Conan-91K" erstellt, einen grossen Datensatz mit automatisch generierten Schlussfolgerungsspuren. Dieser Datensatz umfasst detaillierte Informationen über:

    - Frame-Identifikation: Welche Frames sind für bestimmte Ereignisse oder Fragen entscheidend? - Evidenzbasierte Schlussfolgerungen: Wie lassen sich Informationen aus diesen Frames zu logischen Ketten verknüpfen? - Aktionsentscheidungen: Wann ist der richtige Zeitpunkt, um eine Schlussfolgerung zu ziehen, und wann muss weiter geforscht werden?

    Dieser strukturierte Datensatz ermöglicht es dem Modell, nicht nur Muster zu erkennen, sondern auch die zugrundeliegende Logik des Schlussfolgerns zu erlernen.

    Das Identification-Reasoning-Action (AIR) RLVR-Trainingsframework

    Das Herzstück des Trainingsansatzes ist das "Identification-Reasoning-Action (AIR) RLVR"-Framework, welches eine mehrstufige progressive Kaltstartstrategie nutzt. Dieses Framework wurde entwickelt, um das visuelle Schlussfolgern über mehrere Schritte hinweg zu verbessern:

    1. Identification (I): Das Modell lernt zunächst, relevante visuelle Beweise in den Videoframes zu identifizieren. Dies ist entscheidend für die Verankerung der Schlussfolgerungen in den tatsächlichen visuellen Daten.
    2. Reasoning (R): Anschliessend wird das Modell darin geschult, über diese identifizierten Beweise hinweg zu schlussfolgern. Hierbei werden Zusammenhänge zwischen verschiedenen Frames hergestellt und logische Ketten gebildet.
    3. Action (A): Basierend auf den gewonnenen Erkenntnissen trifft das Modell Entscheidungen. Dies kann das Ziehen einer finalen Schlussfolgerung sein oder die Entscheidung, weitere explorative Schritte einzuleiten, um zusätzliche Informationen zu sammeln.

    Der progressive Kaltstartansatz ermöglicht es dem Modell, schrittweise komplexere Schlussfolgerungsfähigkeiten zu entwickeln, indem es zunächst grundlegende visuelle Identifikationsaufgaben meistert und darauf aufbauend immer anspruchsvollere Reasoning- und Aktionsschritte erlernt.

    Leistung und Implikationen

    Die Evaluierung des Conan-Frameworks auf sechs verschiedenen Benchmarks für mehrstufige Video-Reasoning-Aufgaben zeigte eine durchschnittliche Genauigkeitssteigerung von über 10% im Vergleich zu bestehenden Modellen wie Qwen2.5-VL-7B-Instruct. Diese signifikante Leistungsverbesserung unterstreicht die Effektivität des evidenzbasierten und progressiven Lernansatzes. Darüber hinaus konnte Conan seine Robustheit und Skalierbarkeit auch bei der Analyse langer Videos unter Beweis stellen, was für reale Anwendungen von grosser Bedeutung ist.

    Potenzial für B2B-Anwendungen

    Die Fortschritte, die Conan im Bereich der multiskalaren visuellen Evidenzanalyse erzielt, eröffnen vielfältige Möglichkeiten für B2B-Anwendungen. Die Fähigkeit, komplexe visuelle Informationen präzise zu interpretieren und daraus fundierte Schlüsse zu ziehen, kann in verschiedenen Branchen von grossem Nutzen sein:

    • Sicherheits- und Überwachungssysteme: Eine verbesserte Videoanalyse ermöglicht eine präzisere Erkennung von Anomalien, die Vorhersage von Ereignissen und die Unterstützung bei der Aufklärung von Vorfällen, indem relevante visuelle Beweise schnell identifiziert und verknüpft werden.
    • Qualitätskontrolle und Fertigung: In industriellen Umgebungen kann Conan zur automatisierten Inspektion von Produkten eingesetzt werden, um Fehler oder Unregelmässigkeiten zu erkennen, die über eine einfache Mustererkennung hinausgehen und ein tieferes Verständnis des Produktionsprozesses erfordern.
    • Medizinische Bildgebung: Bei der Analyse von medizinischen Videos oder Bildsequenzen könnte das Framework Ärzte dabei unterstützen, subtile Veränderungen zu identifizieren, die auf Krankheiten hinweisen, und so präzisere Diagnosen zu ermöglichen.
    • Autonomes Fahren: Die Fähigkeit, komplexe Verkehrssituationen über längere Zeiträume hinweg zu verstehen und die Absichten anderer Verkehrsteilnehmer zu antizipieren, ist für die Entwicklung sicherer autonomer Fahrzeuge von entscheidender Bedeutung.
    • Forschung und Entwicklung: In wissenschaftlichen Disziplinen, die auf die Analyse grosser Mengen visueller Daten angewiesen sind, wie z.B. Biologie oder Materialwissenschaften, kann Conan den Prozess der Hypothesenbildung und Entdeckung beschleunigen.

    Die verbesserte visuelle Verankerung und die reduzierte Anfälligkeit für Halluzinationen sind dabei entscheidende Faktoren, die die Zuverlässigkeit und Vertrauenswürdigkeit von KI-Systemen in diesen kritischen Anwendungsbereichen erhöhen.

    Ausblick

    Das "Conan"-Framework stellt einen bedeutenden Schritt in der Entwicklung von KI-Systemen dar, die in der Lage sind, visuelle Informationen auf eine Weise zu verarbeiten, die der menschlichen deduktiven und explorativen Intelligenz ähnelt. Die Kombination aus einem sorgfältig konstruierten Datensatz und einem innovativen Trainingsframework ermöglicht es, die Grenzen des multiskalaren Video-Reasonings zu erweitern. Für Unternehmen, die auf präzise und zuverlässige visuelle Analyse angewiesen sind, bietet diese Entwicklung das Potenzial, operative Effizienz zu steigern, Risiken zu minimieren und neue Erkenntnisse aus komplexen visuellen Daten zu gewinnen. Die kontinuierliche Weiterentwicklung solcher evidenzbasierten KI-Systeme wird entscheidend sein, um die nächste Generation intelligenter Anwendungen zu realisieren und Mindverse als Ihren KI-Partner zu etablieren.

    Bibliography

    - Ouyang, K., Liu, Y., Yao, L., Cai, Y., Zhou, H., Zhou, J., Meng, F., & Sun, X. (2025). Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence. arXiv preprint arXiv:2510.20470. - Xu, M., Jiang, G., Liang, W., Zhang, C., & Zhu, Y. (2023). Active Reasoning in an Open-World Environment. NeurIPS. - Hugging Face Daily Papers. (2025). Retrieved from https://huggingface.co/papers/date/2025-10-24 - ariesssxu. (2023). GitHub - ariesssxu/Conan-Active-Reasoning. Retrieved from https://github.com/ariesssxu/conan-active-reasoning

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen