Die Technologiewelt blickt gespannt auf die jüngsten Entwicklungen von Apple im Bereich der künstlichen Intelligenz (KI). In einer kürzlich veröffentlichten Ankündigung präsentierte Apple eine neue Familie von Open-Source-KI-Modellen, die in mehreren Benchmarks bemerkenswerte Leistungen erzielen und sogar etablierte Modelle wie Mistral-7B und Hugging Face übertreffen.
Das Forschungsteam von Apple, das im Rahmen des DataComp-Projekts für Sprachmodelle arbeitet, hat kürzlich eine Reihe von Open-Source-Modellen auf Hugging Face veröffentlicht. Diese Familie umfasst zwei Hauptmodelle: eines mit 7 Milliarden Parametern und ein kleineres mit 1,4 Milliarden Parametern. Beide Modelle haben in Benchmarks beeindruckende Ergebnisse erzielt, wobei das größere Modell sogar das Mistral-7B übertraf und sich den führenden offenen Modellen wie Llama 3 und Gemma annäherte.
Das DataComp-Projekt ist ein kollaborativer Ansatz zur Erstellung hochwertiger Datensätze für das Training von KI-Modellen, insbesondere im multimodalen Bereich. Beteiligt sind Forscher von Apple, der University of Washington, der Tel Aviv University und dem Toyota Institute of Research. Das Ziel ist es, ein standardisiertes Framework zu nutzen, um verschiedene Experimente durchzuführen und die besten Datenkurationstechniken für das Training leistungsstarker Modelle zu ermitteln.
Die Experimente des Projekts zeigten, dass das modellbasierte Filtern, bei dem maschinelle Lernmodelle automatisch qualitativ hochwertige Daten aus größeren Datensätzen auswählen, entscheidend für die Zusammenstellung eines hochwertigen Trainingssatzes sein kann. Um die Effektivität dieser Technik zu demonstrieren, wurde der daraus resultierende Datensatz, DCLM-Baseline, verwendet, um die neuen DCLM-Modelle mit 7 Milliarden und 1,4 Milliarden Parametern von Grund auf zu trainieren.
Das DCLM-7B-Modell, das auf 2,5 Billionen Token unter Verwendung von Pretraining-Rezepten auf Basis des OpenLM-Frameworks trainiert wurde, bietet ein 2K-Kontextfenster und erreicht eine 5-Schuss-Genauigkeit von 63,7% auf MMLU. Dies stellt eine Verbesserung von 6,6 Prozentpunkten im Vergleich zu MAP-Neo dar, dem bisherigen Stand der Technik im Bereich der Open-Data-Sprachmodelle, bei 40% weniger Rechenaufwand für das Training.
Wesentlich ist, dass seine Leistung auf MMLU nahe an die führender offener Modelle wie Mistral-7B-v0.3 (62,7%), Llama3 8B (66,2%), Google’s Gemma (64,3%) und Microsoft’s Phi-3 (69,9%) heranreicht. Die Leistung des Modells über verschiedene Benchmarks hinweg verbesserte sich weiter, als die Forscher die Kontextlänge auf 8K erweiterten und zusätzliche 100 Milliarden Trainingseinheiten auf demselben Datensatz durchführten.
Das kleinere Modell, DCLM-1.4B, das gemeinsam mit dem Toyota Research Institute auf 2,6 Billionen Token trainiert wurde, liefert ebenfalls beeindruckende Leistungen in MMLU-, Core- und Extended-Tests. Im 5-Schuss-MMLU-Test erzielte es 41,9%, was deutlich höher ist als bei anderen Modellen in dieser Kategorie, einschließlich SmolLM von Hugging Face, Qwen-1.5B und Phi-1.5B.
Das größere Modell ist derzeit unter der Apple Sample Code License verfügbar, während das kleinere Modell unter Apache 2.0 veröffentlicht wurde, was kommerzielle Nutzung, Verteilung und Modifikation erlaubt. Zudem gibt es eine instruktionstunierte Version des 7B-Parameter-Modells in der Hugging Face-Bibliothek.
Die Veröffentlichung dieser Modelle markiert einen bedeutenden Fortschritt in Apples KI-Forschung und zeigt die Wirksamkeit der Datenkurationstechniken. Auch wenn diese Modelle derzeit nicht für Apple-Geräte bestimmt sind und aufgrund der Test-Trainingsdaten gewisse Verzerrungen oder schädliche Antworten zeigen können, bieten sie eine solide Basis für weitere Forschungsarbeiten im Bereich der Datenkuration und des Trainings von Sprachmodellen.
Die kontinuierliche Weiterentwicklung und Optimierung dieser Modelle könnte Apple in eine führende Position im Bereich der offenen KI-Modelle bringen und die Standards in der Branche neu definieren.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen