Effiziente Evaluierung von KI-Modellen durch DISCO-Methode

Kategorien:

No items found.

Freigegeben:

October 14, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Bewertung von Machine-Learning-Modellen, insbesondere großen Sprachmodellen (LLMs), ist zunehmend ressourcenintensiv und kostspielig.
DISCO (Diversifying Sample Condensation) ist eine neue Methode zur effizienten Modellevaluation, die den Rechenaufwand drastisch reduziert.
Anstatt die Vielfalt der Stichproben zu maximieren, konzentriert sich DISCO darauf, Stichproben auszuwählen, die die größte Diskrepanz in den Modellantworten aufweisen.
Die Methode erreicht nachweislich modernste Ergebnisse bei der Leistungsvorhersage auf verschiedenen Benchmarks wie MMLU, Hellaswag, Winogrande und ARC.
Durch die Nutzung von „Modellsignaturen“ und einer einfachen Vorhersagemethode übertrifft DISCO bestehende Ansätze in puncto Effizienz und Genauigkeit.

Effiziente Modellevaluation: DISCO revolutioniert die Leistungsbewertung von KI-Modellen

Die Evaluierung moderner Machine-Learning-Modelle, insbesondere großer Sprachmodelle (LLMs), hat sich zu einem erheblichen Kostenfaktor entwickelt. Benchmarks wie LMMs-Eval und HELM erfordern oft Tausende von GPU-Stunden pro Modell, was nicht nur die Zugänglichkeit einschränkt und den Innovationszyklus verlangsamt, sondern auch die Umweltbelastung erhöht. Angesichts dieser Herausforderungen ist die Entwicklung effizienterer Evaluierungsmethoden von großer Bedeutung. Ein kürzlich veröffentlichter Forschungsartikel stellt hierzu eine vielversprechende neue Methode vor: Diversifying Sample Condensation (DISCO).

Die Herausforderung der Modellevaluation

Die traditionelle Herangehensweise an die effiziente Modellevaluation umfasst in der Regel zwei Schritte: Zuerst wird eine Anker-Untermenge von Daten ausgewählt, und anschließend wird eine Abbildung trainiert, um die Leistung auf dieser Untermenge auf das vollständige Testergebnis zu projizieren. Ein wesentlicher Nachteil bestehender Methoden zur Ankerpunktauswahl ist deren Abhängigkeit von Clustering-Techniken. Diese gruppieren Stichproben basierend auf der Ähnlichkeit der Antworten, die sie von einer Reihe von Referenzmodellen erhalten. Solche Clustering-Ansätze sind oft komplex und anfällig für Designentscheidungen.

DISCO: Ein Paradigmenwechsel in der Stichprobenauswahl

DISCO weicht von diesem Ansatz ab, indem es argumentiert, dass die Diversität unter den Stichproben weniger kritisch ist als die Diversität in den Modellantworten. Anstatt sich auf die Repräsentativität der Stichproben zu konzentrieren, priorisiert DISCO die Auswahl von Stichproben, die die größte Diskrepanz zwischen den Modellen hervorrufen. Dies wird durch gierige, stichprobenweise Statistiken erreicht, anstatt durch globales Clustering. Der Ansatz ist konzeptionell einfacher.

Theoretische Fundierung und praktische Umsetzung

Die theoretische Grundlage von DISCO besagt, dass die Modellübergreifende Diskrepanz eine informationstheoretisch optimale Regel für eine solche gierige Auswahl bietet. Genauer gesagt, wenn die Leistung eines Modells eine injektive Funktion ist, dann ist die gegenseitige Information zwischen der Modellleistung und der Ensemble-Mittelwertvorhersage für eine Stichprobe äquivalent zur verallgemeinerten Jensen-Shannon-Divergenz (JSD) der einzelnen Modellvorhersagen. Dies impliziert, dass Stichproben, die eine höhere JSD zwischen den Modellvorhersagen hervorrufen, am informativsten sind, um Modelle zu differenzieren und zu rangieren.

Für die praktische Implementierung nutzt DISCO den Predictive Diversity Score (PDS), eine interpretierbare kontinuierliche Verallgemeinerung der Anzahl eindeutiger Argmax-Kategorievorhersagen, als alternatives Diskrepanzmaß. Der PDS wird verwendet, um eine Untermenge der Top-k-Stichproben auszuwählen, die die höchste Modellübergreifende Diskrepanz aufweisen.

Leistungsvorhersage durch Modellsignaturen

Im zweiten Schritt der Leistungsvorhersage schlägt DISCO einen einfacheren, aber effektiveren Ansatz vor als frühere Methoden, die oft versteckte Modellparameter schätzen. DISCO verwendet sogenannte „Modellsignaturen“, die als Verkettung der Rohausgaben eines Modells auf der ausgewählten DISCO-Untermenge definiert sind. Diese hochdimensionalen Signaturen können optional mittels Hauptkomponentenanalyse (PCA) reduziert werden, um die Generalisierung zu verbessern und den Speicherbedarf zu reduzieren. Anschließend wird direkt eine Abbildung von diesen reduzierten Modellsignaturen auf die vollständige Benchmark-Leistung gelernt. Es werden zwei Vorhersagemechanismen untersucht:

KNN-Vorhersage: Für ein unbekanntes Modell wird die Leistung durch Mittelwertbildung der bekannten Leistungen seiner K nächsten Nachbarn im Pool der Quellmodelle geschätzt, basierend auf dem euklidischen Abstand ihrer reduzierten Modellsignaturen.
Parametrische Abbildung: Ein Regressor (z. B. Random Forest, Neuronales Netz, Lineare Regression) wird auf den reduzierten Signaturen der Quellmodelle trainiert, um deren Ground-Truth-Leistungen vorherzusagen. Die Leistung eines unbekannten Modells wird dann durch diesen Regressor vorhergesagt.

Empirische Ergebnisse und Effizienzgewinne

DISCO wurde auf Sprach-Benchmarks (MMLU, HellaSwag, Winogrande, ARC) und im Bereich der Computer Vision (ImageNet-1k) umfassend evaluiert. Die Experimente umfassten 424 LLMs von Hugging Face und 400 auf ImageNet vortrainierte Modelle. Eine „chronologische Aufteilung“ wurde angewendet, wobei Prädiktoren auf älteren Modellen trainiert und auf neueren getestet wurden, um die Robustheit gegenüber Verteilungsverschiebungen in der Modellpopulation sicherzustellen.

Auf MMLU erreichte DISCO (unter Verwendung von High PDS für die Auswahl und Random Forest für die Vorhersage) einen mittleren absoluten Fehler (MAE) von 1,07 Prozentpunkten (%p) und eine Spearman-Rangkorrelation von 0,987 mit nur 100 Stichproben. Dies führte zu einer Reduzierung der Evaluierungskosten um 99,3 %. Diese Ergebnisse übertreffen frühere State-of-the-Art-Methoden wie tinyBenchmarks (2,08 %p MAE, 0,927 Rang) und Metabench (2,08 %p MAE, 0,904 Rang, jedoch mit mehr Stichproben) erheblich. Selbst bei zufälliger Stichprobenauswahl erzielten Modellsignaturen in Kombination mit Random Forest einen MAE von 1,81 %p und eine Rangkorrelation von 0,933, was den inhärenten Wert von Modellsignaturen demonstriert. Die Wirksamkeit der Methode erstreckt sich auch auf den Bereich der Computer Vision, wo auf ImageNet ein MAE von 0,63 %p und eine Rangkorrelation von 0,969 bei einer 99,8 %igen Reduzierung der Inferenzkosten erzielt wurde.

Faktoranalyse und Robustheit

Eine detaillierte Faktoranalyse ergab, dass DISCO robust gegenüber der Wahl der Modellaufteilungsstrategie ist und dass eine Stratifizierung (gleichmäßige Stichprobenentnahme aus Aufgaben) bei Verwendung von PDS nicht vorteilhaft ist. Die Leistung verbesserte sich konsistent mit mehr Quellmodellen, und die Dimensionsreduktion mittels PCA erwies sich als entscheidend zur Reduzierung von Overfitting und zur Steigerung der Korrelation (von 0,918 ohne PCA auf 0,987 mit 256 Dimensionen auf MMLU). Random Forest erwies sich als das effektivste Vorhersagemodell.

Fazit

DISCO präsentiert einen konzeptionell einfacheren und empirisch überlegenen Rahmen für die effiziente Modellevaluation. Durch die Konzentration auf die Modellübergreifende Diskrepanz für die Stichprobenauswahl und die Nutzung direkter Modellsignaturen für die Leistungsvorhersage werden die Evaluierungskosten drastisch gesenkt, während gleichzeitig eine hohe Genauigkeit und Konsistenz im Modellranking beibehalten wird. Eine Hauptbeschränkung ist die Robustheit gegenüber Verteilungsverschiebungen in der Modellpopulation, die in zukünftigen Arbeiten durch adaptive Stichprobenauswahl oder periodisches Nachtraining adressiert werden könnte.

Diese Entwicklung ist für Unternehmen im Bereich der KI, die auf eine schnelle und kosteneffiziente Evaluierung ihrer Modelle angewiesen sind, von großer Relevanz. Sie ermöglicht es, den Innovationszyklus zu beschleunigen und gleichzeitig Ressourcen zu schonen.

Bibliography: - Rubinstein, A., Raible, B., Gubri, M., & Oh, S. J. (2025). Diversifying Sample Condensation for Efficient Model Evaluation. https://arxiv.org/abs/2510.07959 - Hugging Face. (n.d.). Diversifying Sample Condensation for Efficient Model Evaluation. https://huggingface.co/papers/2510.07959 - TheMoonlight.io. (n.d.). Diversifying Sample Condensation for Efficient Model Evaluation. https://www.themoonlight.io/en/review/disco-diversifying-sample-condensation-for-efficient-model-evaluation - Slashpage. (n.d.). Diversifying Sample Condensation for Efficient Model Evaluation. https://slashpage.com/haebom/7916x82r8jp3124kpyg3?lang=en&tl=en