Erweiterung der Evaluierungsmöglichkeiten bei Papers With Code durch Closed-Source-Modelle

Kategorien:

No items found.

Freigegeben:

June 3, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Papers With Code erweitert seine Plattform um die Unterstützung für die Bewertung von Closed-Source-Modellen.
Ein neues „closed“-Tag kennzeichnet Closed-Source-Evaluierungen und bietet Transparenz.
Die Funktion ermöglicht es Nutzern, diese Kennzeichnung in ihren persönlichen Einstellungen anzupassen.
Diese Entwicklung adressiert die wachsende Bedeutung proprietärer KI-Modelle in der Forschung und Entwicklung.
Die Integration zielt darauf ab, eine umfassendere Vergleichbarkeit von KI-Modellen zu ermöglichen, unabhängig von ihrer Lizenzierung.
Die Microsoft 365 Copilot Agent Evaluations CLI bietet Tools zur Testung und Verbesserung von Agenten durch automatisierte Promptevaluierung und KI-basierte Bewertung.

Neues Feature bei Papers With Code: Evaluierungen von Closed-Source-Modellen

Die Plattform Papers With Code, bekannt als Archiv für KI-Benchmarks, hat eine signifikante Neuerung eingeführt: die Unterstützung für die Evaluierung von Closed-Source-Modellen. Diese Erweiterung ermöglicht es, auch proprietäre KI-Modelle in den Vergleich und die Analyse einzubeziehen, was eine umfassendere Perspektive auf die Leistungsfähigkeit von Künstlicher Intelligenz bieten soll. Die Ankündigung erfolgte im Kontext eines neuen, umfangreichen Microsoft-Technologieberichts, dessen Evaluierungen nun auf Papers With Code verfügbar sind und mit einem speziellen „closed“-Tag versehen wurden.

Die Bedeutung von Closed-Source-Evaluierungen

Bislang konzentrierte sich die Benchmarking-Community primär auf Open-Source-Modelle, da deren Architektur und Trainingsdaten oft zugänglich sind, was eine detaillierte Überprüfung und Reproduktion von Ergebnissen ermöglicht. Mit dem Aufkommen leistungsstarker Closed-Source-Modelle, die von Unternehmen wie Microsoft, Google oder OpenAI entwickelt werden, entstand jedoch eine Lücke in der öffentlichen Vergleichbarkeit. Diese Modelle werden häufig in geschlossenen Umgebungen trainiert und ihre internen Mechanismen bleiben proprietär. Die Integration von Closed-Source-Evaluierungen auf Plattformen wie Papers With Code ist ein Schritt, diese Lücke zu schließen und eine breitere Vergleichsbasis zu schaffen.

Transparenz durch das „closed“-Tag

Um die Herkunft und Natur der Evaluierungen klar zu kennzeichnen, führt Papers With Code ein spezielles „closed“-Tag ein. Dieses Tag signalisiert den Nutzern, dass die entsprechenden Evaluierungen auf Closed-Source-Modellen basieren und somit möglicherweise nicht die gleiche Transparenz bezüglich der Implementierungsdetails bieten wie Open-Source-Evaluierungen. Nutzer haben die Möglichkeit, diese Kennzeichnung in ihren persönlichen Einstellungen anzupassen, um die Anzeige von Closed-Source-Inhalten nach ihren Präferenzen zu steuern. Dies soll eine flexible Nutzung der Plattform ermöglichen und gleichzeitig die notwendige Transparenz wahren.

Der Microsoft-Technologiebericht und seine Rolle

Die Einführung dieser neuen Funktion fällt mit der Veröffentlichung eines umfangreichen Technologieberichts von Microsoft zusammen. Dieser Bericht, der detaillierte Evaluierungen von KI-Modellen enthält, ist nun ebenfalls auf Papers With Code zugänglich. Die darin enthaltenen Evaluierungen sind mit dem neuen „closed“-Tag versehen, was ihre Integration in das bestehende Benchmarking-System erleichtert und die Relevanz der neuen Funktion unterstreicht. Es wird erwartet, dass dies als Präzedenzfall für weitere Veröffentlichungen von Closed-Source-Evaluierungen dienen wird.

Herausforderungen und Implikationen

Die Evaluierung von Closed-Source-Modellen bringt spezifische Herausforderungen mit sich. Ohne Zugang zu den internen Architekturen, Trainingsdaten oder sogar den genauen Implementierungsdetails kann es schwierig sein, die Gründe für bestimmte Leistungswerte vollständig zu verstehen oder potenzielle Verzerrungen zu identifizieren. Ein Hauptanliegen in der KI-Forschung ist die Kontamination von Benchmarks, bei der Testdaten unbeabsichtigt in den Trainingsprozess von LLMs gelangen, was die Validität von Leistungsvergleichen beeinträchtigen kann. Die TRUCE-Methode (Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs) versucht, diesem Problem entgegenzuwirken, indem sie private Benchmarking-Ansätze vorschlägt.

Ein weiterer Aspekt ist die Reproduzierbarkeit. Während Open-Source-Projekte oft eine hohe Reproduzierbarkeit ermöglichen, ist dies bei Closed-Source-Modellen aufgrund der fehlenden Transparenz der internen Abläufe nicht immer gegeben. Die neue Funktion bei Papers With Code versucht, diesen Herausforderungen durch klare Kennzeichnung und die Möglichkeit zur Filterung zu begegnen.

Die Rolle der Microsoft 365 Copilot Agent Evaluations CLI

Im Kontext der Evaluierung von KI-Modellen entwickelt Microsoft zudem Tools wie die Microsoft 365 Copilot Agent Evaluations CLI (Command Line Interface). Dieses Tool, das sich derzeit in der Vorschauphase befindet, soll Entwicklern und Unternehmen dabei helfen, die Qualität ihrer Agenten zu testen, zu messen und zu verbessern. Es bietet Funktionen für die automatisierte Promptevaluierung und KI-basierte Bewertung, was die Entwicklung robuster und leistungsfähiger KI-Agenten unterstützen soll. Die CLI kann Verbindungseinstellungen und Authentifizierungsparameter aus Umgebungsvariablen lesen, was eine flexible Integration in bestehende Entwicklungsumgebungen ermöglicht.

Zukunftsperspektiven für das KI-Benchmarking

Die Erweiterung von Papers With Code um Closed-Source-Evaluierungen reflektiert die dynamische Entwicklung im Bereich der Künstlichen Intelligenz. Sie zeigt einen Trend hin zu einer integrativeren Benchmarking-Landschaft, in der sowohl Open-Source- als auch Closed-Source-Modelle in einem einheitlichen Rahmen verglichen werden können. Dies könnte zu einem besseren Verständnis der Stärken und Schwächen verschiedener KI-Ansätze führen und die Forschung sowie die praktische Anwendung von KI-Technologien vorantreiben. Die kontinuierliche Weiterentwicklung von Evaluierungstools und -plattformen ist entscheidend, um die Qualität und Zuverlässigkeit von KI-Systemen sicherzustellen.

Fazit

Die Einführung der Closed-Source-Evaluierungsunterstützung bei Papers With Code ist ein wichtiger Schritt für die KI-Community. Sie erweitert die Möglichkeiten für umfassende Vergleiche und Analysen von KI-Modellen und trägt dazu bei, die Transparenz in einem zunehmend komplexen Feld zu erhöhen. Die Kennzeichnung durch das „closed“-Tag und die Anpassungsoptionen für Nutzer sind dabei zentrale Elemente, um den unterschiedlichen Anforderungen an Transparenz und Zugänglichkeit gerecht zu werden. Diese Entwicklung unterstreicht die Notwendigkeit, flexible und umfassende Evaluierungsmethoden zu entwickeln, die mit der rasanten Entwicklung der KI Schritt halten können.

Bibliographie

Ahmed, T., Bird, C., Devanbu, P., & Chakraborty, S. (2024). Studying LLM Performance on Closed- and Open-source Data. arXiv.
Lauragra. (o. D.). Quickstart - Use the Agent Evaluations CLI (preview) | Microsoft Learn. Microsoft Learn.
Lauragra. (o. D.). Get values for Agent Evaluations CLI (preview) environment variables | Microsoft Learn. Microsoft Learn.
Microsoft. (2026). @microsoft/m365-copilot-eval. npmjs.
MicrosoftDocs. (o. D.). docs/evaluations-cli-reference.md at main · MicrosoftDocs/m365copilot-docs. GitHub.
MicrosoftDocs. (o. D.). docs/evaluations-cli-quickstart.md at main · MicrosoftDocs/m365copilot-docs. GitHub.
Rajore, T., Chandran, N., Sitaram, S., Gupta, D., Sharma, R., Mittal, K., & Swaminathan, M. (2024). TRUCE: Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs. arXiv.
AI Chat Daily. (o. D.). Papers With Code Review: Still the Best AI Benchmark Archive in 2026? — AI Chat Daily.
Pienso. (2023). AI Decision Series | Part 1: Open-Source versus Closed ... - Pienso.
EvXata. (2026). EvXata/deepeval-bcg. GitHub.