KI für Ihr Unternehmen – Jetzt Demo buchen

Neues Open-Source-Modell Aria: Multimodale KI aus Japan im Fokus

Kategorien:
No items found.
Freigegeben:
October 10, 2024

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Die japanische Multimodal-KI Aria: Open Source und leistungsstark

    Das japanische Start-up Rhymes AI hat mit Aria sein erstes KI-Modell als Open-Source-Software veröffentlicht. Laut Unternehmensangaben ist Aria das weltweit erste quelloffene, multimodale Mixture-of-Experts-Modell (MoE).

    Was bedeutet "multimodal"?

    Ein multimodal natives Modell zeichnet sich laut Rhymes AI dadurch aus, dass es die Verständnisfähigkeiten von spezialisierten Modellen mit vergleichbarer Kapazität über mehrere Eingangsmodalitäten wie Text, Code, Bild und Video hinweg erreicht oder übertrifft.

    MoE-Modelle: Effizienz durch Spezialisierung

    MoE-Modelle ersetzen die Feedforward-Schichten eines Transformators durch mehrere spezialisierte Experten. Für jedes Eingabetoken wählt ein Router-Modul eine Teilmenge der Experten aus, wodurch die Anzahl der aktiven Parameter pro Token reduziert und die Recheneffizienz erhöht wird. Bekannte Vertreter dieser Klasse sind Mixtral 8x7B und DeepSeek-V2. Vermutlich basiert auch GPT-4 auf dieser Architektur.

    Arias Aufbau und Training

    Der MoE-Decoder von Aria aktiviert 3,5 Milliarden Parameter pro Text-Token und verfügt über insgesamt 24,9 Milliarden Parameter. Ein leichtgewichtiger visueller Encoder mit 438 Millionen Parametern wandelt visuelle Eingaben mit variabler Länge, Größe und Seitenverhältnis in visuelle Token um. Aria verfügt über ein multimodales Kontextfenster von 64.000 Token.

    Rhymes AI hat Aria in vier Phasen vortrainiert: zunächst nur mit Textdaten, dann mit einer Mischung aus Text- und multimodalen Daten, gefolgt von einem Training mit langen Sequenzen und schließlich mit einem abschließenden Finetuning.

    Insgesamt wurde Aria mit 6,4 Billionen Text-Token und 400 Milliarden multimodalen Token vortrainiert. Das Material stammt unter anderem aus den bekannten Datensätzen von Common Crawl und LAION und wurde teilweise synthetisch angereichert.

    Leistung im Vergleich: Aria behauptet sich

    Im Vergleich zu Modellen wie Pixtral-12B und Llama-3.2-11B zeigt Aria laut Benchmarks eine überlegene Leistung bei einer Vielzahl von multimodalen, sprachlichen und Programmieraufgaben, und das bei geringeren Inferenzkosten aufgrund der geringeren Anzahl aktivierter Parameter. Darüber hinaus soll Aria auch in der Lage sein, bei verschiedenen multimodalen Aufgaben mit proprietären Modellen wie GPT-4o und Gemini-1.5 mitzuhalten.

    Lange Sequenzen: Arias Stärke

    Laut Rhymes AI erzielt Aria auch bei langen multimodalen Eingaben wie Videos mit Untertiteln oder mehrseitigen Dokumenten gute Ergebnisse. Im Gegensatz zu anderen Open-Source-Modellen soll Aria lange Videos besser verstehen als GPT-4o mini und lange Dokumente besser als Gemini 1.5 Flash.

    Open Source und Zusammenarbeit mit AMD

    Rhymes AI hat den Quellcode von Aria unter der Apache-2.0-Lizenz auf GitHub zur Verfügung gestellt, die sowohl die akademische als auch die kommerzielle Nutzung erlaubt. Um die Adaption zu erleichtern, hat das Unternehmen auch ein Trainingsframework veröffentlicht, mit dem Aria mit nur einer GPU auf eine Vielzahl von Datenquellen und -formaten feinabgestimmt werden kann.

    Rhymes AI wurde von ehemaligen Google-AI-Experten gegründet. Ähnlich wie bei einigen anderen aufstrebenden KI-Unternehmen ist es das Ziel, leistungsstarke Modelle zu entwickeln, die für alle zugänglich sind. Das Unternehmen hat 30 Millionen US-Dollar an Startkapital erhalten.

    Um die Leistung seiner Modelle durch den Einsatz von AMD-Hardware zu optimieren, ist Rhymes AI eine Partnerschaft mit dem Chiphersteller eingegangen. Auf der AMD-Konferenz "Advancing AI 2024" stellte Rhymes AI seine für Konsumenten entwickelte Suchanwendung BeaGo vor, die auf dem MI300X-Beschleuniger von AMD läuft und laut Rhymes AI umfassende KI-Suchergebnisse für Text und Bilder liefert.

    BeaGo: KI-gestützte Suche für jedermann

    In einem Video vergleicht sich BeaGo mit Perplexity und Gemini. Die App, die derzeit kostenlos für iOS und Android verfügbar ist, unterstützt neben der Suchmaschinenanbindung offenbar nur Texteingaben und englische Spracheingaben. Außerdem schlägt sie KI-Zusammenfassungen aktueller Nachrichten und Links zu verschiedenen Online-Artikeln vor.

    Mit der Veröffentlichung von Aria als Open Source und der Zusammenarbeit mit AMD unterstreicht Rhymes AI sein Engagement für einen demokratischen Zugang zu leistungsstarker KI-Technologie. Es bleibt abzuwarten, welche Anwendungen auf Basis von Aria entstehen und wie sich das Modell in Zukunft weiterentwickelt.

    Quellen

    http://arxiv.org/abs/2410.05993 https://medium.com/@researchgraph/molmo-ai-revolutionising-open-source-multimodal-intelligence-f6bb9489f6d3 https://www.wired.com/story/molmo-open-source-multimodal-ai-model-allen-institute-agents/ https://techcrunch.com/2024/09/25/ai2s-molmo-shows-open-source-can-meet-and-beat-closed-multimodal-models/ https://www.technologyreview.com/2024/09/25/1104465/a-tiny-new-open-source-ai-model-performs-as-well-as-powerful-big-ones/ https://www.zdnet.com/article/chatgpt-vs-microsoft-copilot-vs-gemini-which-is-the-best-ai-chatbot/ https://www.gov.uk/government/publications/international-scientific-report-on-the-safety-of-advanced-ai/international-scientific-report-on-the-safety-of-advanced-ai-interim-report https://www.youtube.com/watch?v=7EJ2iUv2_O0 https://ar5iv.labs.arxiv.org/abs/2311.18259 https://venturebeat.com/ai/salesforce-releases-xgen-mm-open-source-multimodal-ai-models-to-advance-visual-language-understanding/

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.
    No items found.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen