Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration von Videoerkennung in große multimodale Modelle (LMMs) schreitet rasant voran. Dennoch sind die Mechanismen, die das Videoverständnis dieser Modelle antreiben, noch weitgehend unerforscht. Viele Designentscheidungen werden daher ohne fundierte Begründung oder Analyse getroffen. Die hohen Rechenkosten für das Training und die Evaluierung solcher Modelle, verbunden mit begrenzter offener Forschung, hemmen die Weiterentwicklung von Video-LMMs. Ein Forschungsteam hat sich diesem Problem angenommen und die Ergebnisse ihrer umfassenden Studie unter dem Namen "Apollo" veröffentlicht.
Die Apollo-Studie untersucht zunächst die Hauptfaktoren, die zu den hohen Rechenanforderungen der Video-LMM-Forschung beitragen. Dabei wurde das Prinzip der "Skalierungskonsistenz" entdeckt. Dieses besagt, dass Design- und Trainingsentscheidungen, die bei kleineren Modellen und Datensätzen (bis zu einer kritischen Größe) getroffen werden, effektiv auf größere Modelle übertragen werden können. Diese Erkenntnis ermöglicht es, die Entwicklung und Forschung an kleineren, ressourcenschonenderen Modellen durchzuführen und die Ergebnisse auf größere Modelle zu übertragen.
Aufbauend auf dieser Erkenntnis untersuchte das Team verschiedene videospezifische Aspekte von Video-LMMs, darunter:
Video-Sampling: Die Studie zeigt, dass FPS-Sampling (Frames Per Second) während des Trainings dem uniformen Frame-Sampling deutlich überlegen ist. Dies bedeutet, dass die Auswahl der Frames basierend auf der Bildrate des Videos zu besseren Ergebnissen führt als eine gleichmäßige Verteilung der ausgewählten Frames über die gesamte Videolänge. Architekturen: Verschiedene Vision-Encoder wurden verglichen, um die beste Architektur für die Videodarstellung zu ermitteln. Dabei stellte sich heraus, dass SigLIP-SO400M als einzelner Encoder und die Kombination von SigLIP-SO400M mit InternVideo2 die besten Ergebnisse liefern. Datenkomposition und Trainingspläne: Die Studie untersuchte die optimale Zusammensetzung der Trainingsdaten und die effektivsten Trainingspläne. Es zeigte sich, dass eine progressive Freigabe der verschiedenen Modellkomponenten in unterschiedlichen Trainingsphasen zu einer überlegenen Dynamik führt. Auch die Zusammensetzung der Trainingsdaten spielt eine wichtige Rolle: Eine moderate Menge an Textdaten und ein leichter Schwerpunkt auf Videodaten führen zu optimalen Ergebnissen. Token-Resampling und -Integration: Die Forscher untersuchten verschiedene Methoden zur Reduzierung der Anzahl der Tokens pro Frame und zur Integration von Video-Tokens. Perceiver Resampling erwies sich als die beste Methode zur Reduzierung der Tokens pro Frame, während das Einfügen von zusätzlichen Tokens (Text, gelernt usw.) zwischen den Video-Tokens aus verschiedenen Frames oder Clips für eine effiziente Token-Integration ausreicht.
Basierend auf diesen Erkenntnissen entwickelte das Team Apollo, eine Familie von State-of-the-Art-LMMs, die über verschiedene Modellgrößen hinweg eine überlegene Leistung erzielen. Die Apollo-Modelle können stundenlange Videos effizient verarbeiten. Apollo-3B übertrifft die meisten bestehenden 7B-Modelle mit einem beeindruckenden Wert von 55.1 auf LongVideoBench. Apollo-7B erzielt mit 70.9 auf MLVU und 63.3 auf Video-MME State-of-the-Art-Ergebnisse im Vergleich zu anderen 7B-LMMs.
Die Apollo-Studie führt auch ApolloBench ein, einen neuen Benchmark für die effiziente Evaluierung von Video-LMMs. Dieser Benchmark ermöglicht es, die Leistung von Modellen auf verschiedenen Aspekten des Videoverständnisses zu messen, darunter Wahrnehmung, Schlussfolgerung und die Verarbeitung von langen Videos.
Die Apollo-Studie liefert wertvolle Einblicke in die Mechanismen des Videoverständnisses in großen multimodalen Modellen. Die Erkenntnisse zur Skalierungskonsistenz, den optimalen Designentscheidungen und den effektiven Trainingsplänen können die Entwicklung zukünftiger Video-LMMs erheblich beschleunigen. Die Apollo-Modelle und der ApolloBench-Benchmark setzen neue Maßstäbe für effizientes und leistungsstarkes Videoverständnis und bieten der Forschungsgemeinschaft wertvolle Werkzeuge für die Weiterentwicklung dieses wichtigen Bereichs der Künstlichen Intelligenz. Für Mindverse, einem deutschen Anbieter von KI-gestützten Content-Lösungen, bieten diese Erkenntnisse wertvolle Anhaltspunkte für die Entwicklung maßgeschneiderter Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme.
Bibliographie: https://huggingface.co/papers/2412.10360 https://deeplearn.org/arxiv/558092/apollo:-an-exploration-of-video-understanding-in-large-multimodal-models https://www.reddit.com/r/singularity/comments/1hfh1w5/meta_apollo_an_exploration_of_video_understanding/ https://huggingface.co/orrzohar https://paperreading.club/page?id=272463 https://arxiv.org/abs/2403.16998 https://arxiv.org/html/2404.05726v1 https://www.researchgate.net/publication/378302687_NOVEL_APPROACH_MULTI_MODEL_VIDEO_SUPERVISION_FOR_SAFETY_AND_AWARENESSLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen