Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der schnelllebigen Welt der künstlichen Intelligenz (KI) sorgen neue Sprachmodelle und deren Leistungsfähigkeit regelmäßig für Aufsehen. Ein wiederkehrendes Thema ist dabei die Frage nach der Validität von Benchmark-Ergebnissen und inwieweit diese durch das Training mit Testdaten beeinflusst werden. Diesmal steht Nvidias neues Sprachmodell Nemotron 70B im Fokus der Diskussion.
Nvidia bewirbt sein neues Sprachmodell Llama-3.1-Nemotron-70B mit herausragenden Ergebnissen auf den Benchmarks Arena Hard, AlpacaEval und MT-Bench. Diese Benchmarks zählen zu den führenden ihrer Art und dienen der Bewertung von Sprachmodellen als Bewerter. Die Präsentation der Ergebnisse in Tabellenform unterstreicht die Leistungsfähigkeit des Modells:
Allerdings zeigt sich bei der Anwendung der neuen Style-Kontrolle von LMArena, dass die Leistung des Modells sinkt. Dies allein ist noch nicht ungewöhnlich. Interessanter ist jedoch, dass andere Standard-Benchmarks wie GPQA, MMLU Pro und aider keine Verbesserungen oder sogar Verschlechterungen im Vergleich zum Basismodell Llama 3.1 70B aufweisen. Dies sorgt für Enttäuschung in Teilen der KI-Community.
Die wahrscheinlichste Erklärung für die Diskrepanz in den Ergebnissen ist nicht das Training mit Testdaten, sondern die Verwendung des neuen Datensatzes HelpSteer2-Preference. Dieser Datensatz vereinheitlicht Bradley-Terry- und Regressionsbasierte Belohnungsmodelle und führt zu Leistungsverbesserungen bei den drei genannten Benchmarks, während die Leistung bei anderen Benchmarks nahezu unverändert bleibt. Ohne aussagekräftige LMArena-ELOs deutet dies darauf hin, dass der Wert der automatisierten Benchmarks durch HelpSteer2-Preference beeinflusst wird.
Der Fall Nemotron 70B wirft erneut die Frage nach der Transparenz von Trainingsdaten und der Validität von Benchmark-Ergebnissen auf. Die Verwendung synthetischer Daten und die Weiterentwicklung von Trainingsmethoden machen es zunehmend schwieriger, die Vergleichbarkeit und Aussagekraft von Benchmarks zu gewährleisten.
Für die KI-Community ist es essenziell, dass Entwickler von Sprachmodellen ihre Trainingsmethoden und -daten offenlegen, um die Vergleichbarkeit und Validität von Benchmark-Ergebnissen sicherzustellen. Nur so kann das Vertrauen in die Leistungsfähigkeit von KI-Modellen und die Aussagekraft von Benchmarks gewährleistet werden.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen