Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Evaluierung moderner Machine-Learning-Modelle, insbesondere großer Sprachmodelle (LLMs), hat sich zu einem erheblichen Kostenfaktor entwickelt. Benchmarks wie LMMs-Eval und HELM erfordern oft Tausende von GPU-Stunden pro Modell, was nicht nur die Zugänglichkeit einschränkt und den Innovationszyklus verlangsamt, sondern auch die Umweltbelastung erhöht. Angesichts dieser Herausforderungen ist die Entwicklung effizienterer Evaluierungsmethoden von großer Bedeutung. Ein kürzlich veröffentlichter Forschungsartikel stellt hierzu eine vielversprechende neue Methode vor: Diversifying Sample Condensation (DISCO).
Die traditionelle Herangehensweise an die effiziente Modellevaluation umfasst in der Regel zwei Schritte: Zuerst wird eine Anker-Untermenge von Daten ausgewählt, und anschließend wird eine Abbildung trainiert, um die Leistung auf dieser Untermenge auf das vollständige Testergebnis zu projizieren. Ein wesentlicher Nachteil bestehender Methoden zur Ankerpunktauswahl ist deren Abhängigkeit von Clustering-Techniken. Diese gruppieren Stichproben basierend auf der Ähnlichkeit der Antworten, die sie von einer Reihe von Referenzmodellen erhalten. Solche Clustering-Ansätze sind oft komplex und anfällig für Designentscheidungen.
DISCO weicht von diesem Ansatz ab, indem es argumentiert, dass die Diversität unter den Stichproben weniger kritisch ist als die Diversität in den Modellantworten. Anstatt sich auf die Repräsentativität der Stichproben zu konzentrieren, priorisiert DISCO die Auswahl von Stichproben, die die größte Diskrepanz zwischen den Modellen hervorrufen. Dies wird durch gierige, stichprobenweise Statistiken erreicht, anstatt durch globales Clustering. Der Ansatz ist konzeptionell einfacher.
Die theoretische Grundlage von DISCO besagt, dass die Modellübergreifende Diskrepanz eine informationstheoretisch optimale Regel für eine solche gierige Auswahl bietet. Genauer gesagt, wenn die Leistung eines Modells eine injektive Funktion ist, dann ist die gegenseitige Information zwischen der Modellleistung und der Ensemble-Mittelwertvorhersage für eine Stichprobe äquivalent zur verallgemeinerten Jensen-Shannon-Divergenz (JSD) der einzelnen Modellvorhersagen. Dies impliziert, dass Stichproben, die eine höhere JSD zwischen den Modellvorhersagen hervorrufen, am informativsten sind, um Modelle zu differenzieren und zu rangieren.
Für die praktische Implementierung nutzt DISCO den Predictive Diversity Score (PDS), eine interpretierbare kontinuierliche Verallgemeinerung der Anzahl eindeutiger Argmax-Kategorievorhersagen, als alternatives Diskrepanzmaß. Der PDS wird verwendet, um eine Untermenge der Top-k-Stichproben auszuwählen, die die höchste Modellübergreifende Diskrepanz aufweisen.
Im zweiten Schritt der Leistungsvorhersage schlägt DISCO einen einfacheren, aber effektiveren Ansatz vor als frühere Methoden, die oft versteckte Modellparameter schätzen. DISCO verwendet sogenannte „Modellsignaturen“, die als Verkettung der Rohausgaben eines Modells auf der ausgewählten DISCO-Untermenge definiert sind. Diese hochdimensionalen Signaturen können optional mittels Hauptkomponentenanalyse (PCA) reduziert werden, um die Generalisierung zu verbessern und den Speicherbedarf zu reduzieren. Anschließend wird direkt eine Abbildung von diesen reduzierten Modellsignaturen auf die vollständige Benchmark-Leistung gelernt. Es werden zwei Vorhersagemechanismen untersucht:
DISCO wurde auf Sprach-Benchmarks (MMLU, HellaSwag, Winogrande, ARC) und im Bereich der Computer Vision (ImageNet-1k) umfassend evaluiert. Die Experimente umfassten 424 LLMs von Hugging Face und 400 auf ImageNet vortrainierte Modelle. Eine „chronologische Aufteilung“ wurde angewendet, wobei Prädiktoren auf älteren Modellen trainiert und auf neueren getestet wurden, um die Robustheit gegenüber Verteilungsverschiebungen in der Modellpopulation sicherzustellen.
Auf MMLU erreichte DISCO (unter Verwendung von High PDS für die Auswahl und Random Forest für die Vorhersage) einen mittleren absoluten Fehler (MAE) von 1,07 Prozentpunkten (%p) und eine Spearman-Rangkorrelation von 0,987 mit nur 100 Stichproben. Dies führte zu einer Reduzierung der Evaluierungskosten um 99,3 %. Diese Ergebnisse übertreffen frühere State-of-the-Art-Methoden wie tinyBenchmarks (2,08 %p MAE, 0,927 Rang) und Metabench (2,08 %p MAE, 0,904 Rang, jedoch mit mehr Stichproben) erheblich. Selbst bei zufälliger Stichprobenauswahl erzielten Modellsignaturen in Kombination mit Random Forest einen MAE von 1,81 %p und eine Rangkorrelation von 0,933, was den inhärenten Wert von Modellsignaturen demonstriert. Die Wirksamkeit der Methode erstreckt sich auch auf den Bereich der Computer Vision, wo auf ImageNet ein MAE von 0,63 %p und eine Rangkorrelation von 0,969 bei einer 99,8 %igen Reduzierung der Inferenzkosten erzielt wurde.
Eine detaillierte Faktoranalyse ergab, dass DISCO robust gegenüber der Wahl der Modellaufteilungsstrategie ist und dass eine Stratifizierung (gleichmäßige Stichprobenentnahme aus Aufgaben) bei Verwendung von PDS nicht vorteilhaft ist. Die Leistung verbesserte sich konsistent mit mehr Quellmodellen, und die Dimensionsreduktion mittels PCA erwies sich als entscheidend zur Reduzierung von Overfitting und zur Steigerung der Korrelation (von 0,918 ohne PCA auf 0,987 mit 256 Dimensionen auf MMLU). Random Forest erwies sich als das effektivste Vorhersagemodell.
DISCO präsentiert einen konzeptionell einfacheren und empirisch überlegenen Rahmen für die effiziente Modellevaluation. Durch die Konzentration auf die Modellübergreifende Diskrepanz für die Stichprobenauswahl und die Nutzung direkter Modellsignaturen für die Leistungsvorhersage werden die Evaluierungskosten drastisch gesenkt, während gleichzeitig eine hohe Genauigkeit und Konsistenz im Modellranking beibehalten wird. Eine Hauptbeschränkung ist die Robustheit gegenüber Verteilungsverschiebungen in der Modellpopulation, die in zukünftigen Arbeiten durch adaptive Stichprobenauswahl oder periodisches Nachtraining adressiert werden könnte.
Diese Entwicklung ist für Unternehmen im Bereich der KI, die auf eine schnelle und kosteneffiziente Evaluierung ihrer Modelle angewiesen sind, von großer Relevanz. Sie ermöglicht es, den Innovationszyklus zu beschleunigen und gleichzeitig Ressourcen zu schonen.
Bibliography: - Rubinstein, A., Raible, B., Gubri, M., & Oh, S. J. (2025). Diversifying Sample Condensation for Efficient Model Evaluation. https://arxiv.org/abs/2510.07959 - Hugging Face. (n.d.). Diversifying Sample Condensation for Efficient Model Evaluation. https://huggingface.co/papers/2510.07959 - TheMoonlight.io. (n.d.). Diversifying Sample Condensation for Efficient Model Evaluation. https://www.themoonlight.io/en/review/disco-diversifying-sample-condensation-for-efficient-model-evaluation - Slashpage. (n.d.). Diversifying Sample Condensation for Efficient Model Evaluation. https://slashpage.com/haebom/7916x82r8jp3124kpyg3?lang=en&tl=enLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen