Neues Qwen 3.5 Modell von Alibaba erzielt herausragende Ergebnisse im Humanitys Last Exam

Kategorien:

No items found.

Freigegeben:

February 26, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die neuen Qwen 3.5 Modelle von Alibaba haben beeindruckende Ergebnisse auf dem "Humanity's Last Exam" (HLE) Leaderboard erzielt.
Insbesondere das Qwen3.5-35B-A3B Modell übertrifft in einigen Kategorien proprietäre Modelle wie OpenAI's GPT-5-mini und Anthropic's Claude Sonnet 4.5.
Die Qwen 3.5 Serie zeichnet sich durch eine effiziente Hybridarchitektur, verbesserte multimodale Fähigkeiten und Unterstützung für agentische Tool-Anwendungen aus.
"Humanity's Last Exam" ist ein anspruchsvoller Benchmark mit 2.500 Expertenfragen aus verschiedenen akademischen Disziplinen, der die Grenzen aktueller KI-Modelle aufzeigen soll.
Die Open-Source-Verfügbarkeit der Qwen 3.5 Modelle unter der Apache 2.0 Lizenz ermöglicht eine breite kommerzielle Nutzung und lokale Bereitstellung.

Alibabas Qwen 3.5 Modelle setzen neue Maßstäbe auf dem "Humanity's Last Exam"

Die Landschaft der Künstlichen Intelligenz (KI) ist einem ständigen Wandel unterworfen, geprägt von rasanten Fortschritten und der Einführung immer leistungsfähigerer Modelle. Aktuelle Entwicklungen zeigen, dass die neuen Qwen 3.5 Modelle von Alibaba auf dem renommierten "Humanity's Last Exam" (HLE) Leaderboard auf Hugging Face bemerkenswerte Leistungen erbringen. Diese Ergebnisse unterstreichen die fortschreitende Entwicklung im Bereich der großen Sprachmodelle (LLMs) und deren Fähigkeit, komplexe akademische Herausforderungen zu meistern.

Die Qwen 3.5 Modellreihe im Detail

Die Qwen 3.5 Serie umfasst mehrere Modelle, darunter das Qwen3.5-35B-A3B, Qwen3.5-122B-A10B und Qwen3.5-27B, die unter der Apache 2.0 Open-Source-Lizenz für kommerzielle Nutzung verfügbar sind. Ein weiteres Modell, Qwen3.5-Flash, wird über die Alibaba Cloud Model Studio API angeboten. Ein zentrales Merkmal dieser Modelle ist ihre effiziente Hybridarchitektur, die Gated Delta Networks mit einem spärlichen Mixture-of-Experts (MoE)-System kombiniert. Diese Bauweise ermöglicht eine hohe Inferenzgeschwindigkeit bei geringer Latenz und reduziert gleichzeitig die Rechenkosten erheblich.

Besonders hervorzuheben ist die Fähigkeit der Modelle, auch bei 4-Bit-Quantisierung eine nahezu verlustfreie Genauigkeit zu bewahren. Dies erlaubt Entwicklern, umfangreiche Datensätze ohne serverseitige Infrastruktur zu verarbeiten und "Frontier-Level"-Kontextfenster auf Desktop-PCs zu nutzen. Das Flaggschiffmodell Qwen3.5-35B-A3B kann beispielsweise eine Kontextlänge von über einer Million Token auf Consumer-GPUs mit 32 GB VRAM verarbeiten.

Darüber hinaus integriert Qwen 3.5 einen nativen "Thinking Mode" als Standardzustand. Bevor eine endgültige Antwort generiert wird, erstellt das Modell eine interne Argumentationskette, um komplexe Logikschritte zu durchlaufen. Dies trägt zur Transparenz und Nachvollziehbarkeit der generierten Antworten bei.

"Humanity's Last Exam": Ein Benchmark für die Grenzen der KI

Der "Humanity's Last Exam" (HLE) ist ein Benchmark, der in Zusammenarbeit mit dem Center for AI Safety und über 1.000 Mitwirkenden entwickelt wurde. Er besteht aus 2.500 von Experten geprüften Fragen aus Mathematik, Naturwissenschaften und Geisteswissenschaften. Die Fragen sind bewusst so gestaltet, dass sie nicht einfach durch Informationsabruf aus dem Internet beantwortet werden können, sondern ein tiefes Verständnis und komplexe Denkprozesse erfordern.

Ziel des HLE ist es, die tatsächlichen Fähigkeiten aktueller KI-Modelle zu messen und die kognitiven Lücken zwischen menschlicher Intelligenz und KI-Systemen aufzuzeigen. Frühere Benchmarks wie MMLU oder GPQA erreichen zunehmend eine Sättigung durch die Leistungssteigerung der Modelle, wodurch ihre Aussagekraft als Messinstrument für den Fortschritt an den Grenzen der KI abnimmt. HLE soll dieser Sättigung entgegenwirken, indem es eine neue Generation von akademischen Fragen bereitstellt, die die Modelle an ihre Grenzen bringen.

Die Bewertung auf dem HLE Leaderboard erfolgt anhand der Genauigkeit der Antworten, wobei die Modelle auch ihre eigene Zuversicht angeben, um Kalibrierungsfehler zu messen. Diese Metrik ist entscheidend, da sie Aufschluss darüber gibt, wie gut ein Modell seine eigenen Fähigkeiten einschätzen kann und ob es zu "Konfabulationen" oder "Halluzinationen" neigt.

Leistungsvergleich und Implikationen

Die Qwen 3.5 Modelle haben auf dem HLE Leaderboard beeindruckende Ergebnisse erzielt. Insbesondere das Qwen3.5-35B-A3B Modell übertrifft in einigen Kategorien, darunter Wissen (MMMLU) und visuelles Denken (MMMU-Pro), größere proprietäre Modelle wie OpenAI's GPT-5-mini und Anthropic's Claude Sonnet 4.5. Diese Leistung ist bemerkenswert, da die Qwen-Modelle dabei auch eine höhere Effizienz und geringere Kosten aufweisen, insbesondere das über die Alibaba Cloud Model Studio API verfügbare Qwen3.5-Flash.

Die Fortschritte der Qwen 3.5 Modelle sind nicht nur auf die reine Textverarbeitung beschränkt. Sie zeichnen sich auch durch verbesserte multimodale Fähigkeiten aus, die eine einheitliche Vision-Sprache-Grundlage nutzen. Dies ermöglicht den Modellen, Aufgaben im Bereich des visuellen Denkens, der visuellen Codierung und agentischer Arbeitsabläufe effektiver zu bewältigen. Die Modelle unterstützen zudem bis zu 201 Sprachen und Dialekte, was ihre globale Einsatzfähigkeit unterstreicht.

Für technische Führungskräfte und Entscheidungsträger in Unternehmen bedeuten diese Entwicklungen, dass hochmoderne KI-Fähigkeiten, die einst gut finanzierten Laboren vorbehalten waren, nun auch für die lokale Entwicklung in Unternehmen zugänglich werden. Die Möglichkeit, große Dokumentenarchive oder stundenlange Videos lokal zu verarbeiten, ermöglicht tiefe institutionelle Analysen ohne die Datenschutzrisiken von Drittanbieter-APIs. Durch den Einsatz dieser spezialisierten "Mixture-of-Experts"-Modelle innerhalb einer privaten Firewall können Organisationen die Kontrolle über ihre Daten behalten und gleichzeitig zuverlässigere, autonome Agenten aufbauen.

Die kontinuierliche Veröffentlichung und Verbesserung von Open-Source-Modellen wie Qwen 3.5 fördert eine dynamische Wettbewerbslandschaft im Bereich der KI. Dies kann zu einer breiteren Akzeptanz und Innovation führen, da Entwickler und Unternehmen Zugang zu leistungsstarken und kostengünstigen Lösungen erhalten.

Ausblick

Die Ergebnisse der Qwen 3.5 Modelle auf dem "Humanity's Last Exam" zeigen, dass die Entwicklung von KI-Modellen weiterhin mit hoher Geschwindigkeit voranschreitet. Während der HLE die bestehenden Lücken zwischen menschlicher und künstlicher Intelligenz aufzeigt, demonstrieren die neuen Modelle gleichzeitig, wie schnell diese Lücken geschlossen werden können. Die Kombination aus fortschrittlicher Architektur, multimodalen Fähigkeiten und Open-Source-Verfügbarkeit positioniert die Qwen 3.5 Serie als einen wichtigen Akteur in der globalen KI-Landschaft.

Die fortlaufende Forschung und Entwicklung in diesem Bereich wird entscheidend sein, um das volle Potenzial der KI zu erschließen und ihre Integration in vielfältige Anwendungen voranzutreiben. Benchmarks wie der HLE spielen dabei eine zentrale Rolle, indem sie eine objektive Messgrundlage für den Fortschritt bieten und die Entwicklung von KI-Systemen in Richtung echter Intelligenz lenken.

Bibliography

- "Alibaba's new open source Qwen3.5 Medium model offers near Sonnet 4.5 performance on local computers." VentureBeat, 26. Februar 2026. - "Humanity's Last Exam Benchmark Leaderboard | Artificial Analysis." Artificial Analysis. - "Stay Calm: ‘Humanity’s Final Test’ Has Begun." Scienmag, 25. Februar 2026. - "Qwen/Qwen3.5-35B-A3B - Hugging Face." Hugging Face, 26. Februar 2026. - "Models – Hugging Face." Hugging Face. - "Humanity's Last Exam." Scale.com, 10. Februar 2026. - "Humanity's Last Exam - LLM Stats." LLM Stats. - "Arena Leaderboard - a Hugging Face Space by lmarena-ai." Hugging Face. - "GLM-5, Qwen3.5, and the AI Race That Didn't Pause for Chinese New Year." Tony Peng, Recode China AI, 23. Februar 2026. - "A suite of large language models for public health infoveillance - npj Digital Medicine." npj Digital Medicine, 23. Februar 2026.