Neuartige Benchmark-Erstellung für Large Language Models durch InfoSynth

Kategorien:

No items found.

Freigegeben:

January 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Entwicklung neuartiger Benchmarks zur Bewertung von Large Language Models (LLMs) stellt eine Herausforderung dar, da herkömmliche Methoden zeitaufwändig und kostspielig sind und bestehende Benchmarks die Trainingsdaten von LLMs kontaminieren können.
InfoSynth ist ein neues Framework, das auf informationstheoretischen Prinzipien und genetischen Algorithmen basiert, um automatisch neuartige und vielfältige Reasoning-Benchmarks für LLMs zu generieren und zu bewerten.
Das Framework nutzt Metriken wie KL-Divergenz und Entropie, um die Neuartigkeit und Diversität von Benchmarks zu quantifizieren, ohne auf kostspielige Modellbewertungen angewiesen zu sein.
Ein End-to-End-Pipeline synthetisiert robuste Python-Codierungsprobleme aus Seed-Datensätzen unter Verwendung genetischer Algorithmen und iterativer Code-Rückmeldung.
InfoSynth kann die Neuartigkeit, Diversität und Schwierigkeit der generierten Probleme steuern und erzeugt zu 97 % der Zeit präzise Testfälle und Lösungen.
Iteratives Code-Feedback verbessert die Robustheit der generierten Probleme erheblich und dient als eine Form des "Chain-of-Thought"-Reasonings.
Im Vergleich zu bestehenden Generierungsmethoden wie GeneticInstruct und KodCode zeigt InfoSynth eine überlegene Fähigkeit, neuartige Probleme zu generieren.

Die rapide Entwicklung von Large Language Models (LLMs) hat zu bemerkenswerten Fortschritten in Bereichen wie Reasoning und Codegenerierung geführt. Doch die effiziente Erstellung neuer Benchmarks zur fundierten Bewertung dieser Fähigkeiten bleibt eine signifikante Herausforderung. Traditionelle Ansätze zur Benchmark-Erstellung sind oft mit erheblichem manuellem Aufwand, hohen Kosten und einem beträchtlichen Zeitaufwand verbunden. Zudem besteht die Problematik, dass bestehende Benchmarks die Trainingsdaten von LLMs kontaminieren können, was die Aussagekraft von Leistungsmessungen beeinträchtigt. Um diesen Herausforderungen zu begegnen und eine präzisere Bewertung der tatsächlichen Fähigkeiten von LLMs zu ermöglichen, wurde das Framework InfoSynth entwickelt.

InfoSynth: Ein informationstheoretischer Ansatz zur Benchmark-Synthese

InfoSynth ist ein innovatives Framework, das darauf abzielt, die Erstellung und Bewertung von Reasoning-Benchmarks für LLMs zu automatisieren. Es basiert auf informationstheoretischen Prinzipien und genetischen Algorithmen, um neuartige und vielfältige Problemstellungen zu generieren. Das Framework konzentriert sich dabei auf zwei zentrale Eigenschaften von Benchmarks: Neuartigkeit und Diversität.

Messung von Neuartigkeit und Diversität

Ein Kernaspekt von InfoSynth ist die Einführung von Metriken zur Quantifizierung der Neuartigkeit und Diversität von Benchmarks. Diese Metriken basieren auf informationstheoretischen Konzepten wie der KL-Divergenz und der Entropie. Die KL-Divergenz wird verwendet, um die Neuartigkeit eines Datensatzes im Vergleich zu bestehenden Datensätzen zu erfassen. Ein Datensatz wird als neuartig betrachtet, wenn seine Problemstellungen sich signifikant von denen in bereits vorhandenen Datensätzen unterscheiden. Die Entropie hingegen misst die Diversität innerhalb eines Datensatzes, also die Bandbreite und Variation der enthaltenen Probleme. Eine hohe Entropie deutet auf eine breite Abdeckung verschiedener Problemtypen hin, was die Robustheit eines LLM gegenüber Overfitting erhöht.

Ein wesentlicher Vorteil dieses Ansatzes ist, dass diese Metriken die Bewertung von Benchmarks ermöglichen, ohne auf aufwendige Modellbewertungen angewiesen zu sein, welche rechenintensiv und zeitaufwändig sein können. Stattdessen werden die Problemstellungen in einen Embedding-Raum projiziert, und die informationstheoretischen Metriken werden auf den Verteilungen dieser Embeddings berechnet.

Die End-to-End-Pipeline von InfoSynth

InfoSynth implementiert eine End-to-End-Pipeline zur Synthese robuster Python-Codierungsprobleme. Diese Pipeline nutzt genetische Algorithmen und iteratives Code-Feedback, um hochwertige, neuartige und diverse Benchmarks aus Seed-Datensätzen zu generieren. Die Hauptkomponenten der Pipeline umfassen:

Mutation und Crossover: Ausgehend von einem Seed-Datensatz werden in jeder Iteration zufällig entweder Mutations- oder Crossover-Operationen angewendet, um neue Codierungsanweisungen zu erzeugen. Mutationen können die Schwierigkeit eines Problems variieren (einfacher, gleich schwierig, schwieriger), während Crossover-Operationen Konzepte aus mehreren bestehenden Fragen kombinieren, um neuartige Probleme zu schaffen.
k-Farthest Neighbor Selection: Um Neuartigkeit und Diversität zu erhöhen, werden Probleme basierend auf ihrer Kosinus-Ähnlichkeit zu bereits generierten Problemen gefiltert. Bei Mutationen werden die zwei von drei Varianten beibehalten, die die geringste Ähnlichkeit mit dem Seed- und dem generierten Satz aufweisen. Ähnlich werden beim Crossover die zwei am wenigsten ähnlichen Probleme ausgewählt.
Iteratives Code-Feedback: Für jedes neu generierte Problem werden eine Python-Lösung und Testfälle erstellt. Diese Lösungen werden in einer isolierten Umgebung ausgeführt, und die Ergebnisse werden dem Modell als Feedback zurückgegeben. Das Modell verfeinert seine Lösung und Tests iterativ, bis alle Tests bestanden sind oder eine maximale Anzahl von Iterationen erreicht ist. Dieses iterative Feedback dient auch als eine Form des "Chain-of-Thought"-Reasonings, da das Modell den gesamten Feedback-Verlauf nutzt, um seine Lösungen zu verbessern. Probleme, die die Selbstverifizierung nicht bestehen, werden zwar nicht in den endgültigen Datensatz aufgenommen, dienen aber weiterhin als Seeds für die nächste Generation, um die Diversität zu fördern.
Deduplizierung und Nachbearbeitung: Textuell ähnliche Probleme werden mittels Algorithmen wie MinHash + LSH entfernt. Darüber hinaus werden die generierten Problembeschreibungen nachbearbeitet, um Unklarheiten zu beseitigen und Randfälle präzise zu definieren. Dies führt zu einer Verbesserung der Genauigkeit der Test-Taker-Modelle.

Experimentelle Validierung und Ergebnisse

Die Wirksamkeit von InfoSynth wurde anhand umfangreicher Experimente validiert. Die Ergebnisse zeigen, dass InfoSynth in der Lage ist, Datensätze zu erzeugen, die im Vergleich zu den ursprünglichen Seed-Datensätzen eine höhere Neuartigkeit und Diversität aufweisen. Zum Beispiel demonstrieren die generierten Datensätze MBPP-New und Leetcode-New eine signifikant höhere Neuartigkeit und Diversität im Vergleich zu ihren Originalversionen.

Kontrolle von Neuartigkeit, Diversität und Schwierigkeit

Ein wichtiges Merkmal von InfoSynth ist die Möglichkeit, die Eigenschaften der generierten Probleme zu steuern. Durch die Variation der Mutationsschwierigkeiten kann beispielsweise die Schwierigkeit der generierten Benchmarks angepasst werden. Experimente zeigten, dass "harte" Mutationen die Problemschwierigkeit effektiv erhöhen, was jedoch zu einem Kompromiss bei der Diversität und Neuartigkeit führen kann, da sich die Probleme auf weniger, aber anspruchsvollere Themen konzentrieren.

Die k-Farthest-Neighbor-Filterung verbessert die Neuartigkeit und Diversität, kann aber dazu führen, dass einfachere Probleme generiert werden. Dies verdeutlicht den Trade-off zwischen Neuartigkeit, Diversität und Schwierigkeit, den InfoSynth steuern kann. Datensätze mit hoher Diversität neigen dazu, sich in Regionen geringer Dichte der Seed-Embedding-Verteilung zu konzentrieren, was die Neuartigkeit erhöht, aber die Diversität verringert. Filterung und Nachbearbeitung verbessern die Diversität zuverlässig.

Effektivität des iterativen Code-Feedbacks

Das iterative Code-Feedback ist ein entscheidender Faktor für die Robustheit der generierten Probleme. Die Anzahl der erfolgreich durchlaufenen Lösungs-Test-Paare steigt über mehrere Feedback-Iterationen hinweg signifikant an. Fehlerquoten sinken, da das LLM Syntax- und Laufzeitprobleme behebt. Drei Iterationen erwiesen sich in der Regel als optimal, da weitere Iterationen nur geringfügige zusätzliche Gewinne bei deutlich höherem Inferenzaufwand erzielen würden.

Vergleich mit anderen Generierungsmethoden

Im Vergleich zu anderen Methoden zur Problemgenerierung wie GeneticInstruct und KodCode zeigt InfoSynth eine überlegene Fähigkeit, neuartige Probleme zu erzeugen. Während InfoSynth und GeneticInstruct eine ähnliche Diversität aufweisen, ist InfoSynth der Methode, die sich durch die höchste Neuartigkeit auszeichnet. Dies deutet darauf hin, dass InfoSynth in der Lage ist, Probleme zu generieren, die sich substanziell von ihren Seed-Daten unterscheiden.

Herausforderungen und zukünftige Richtungen

Trotz der Erfolge identifiziert die Forschung auch Bereiche für weitere Verbesserungen. Probleme, die durch wiederholtes Crossover bereits komplexer Probleme entstehen oder signifikante numerische Berechnungen erfordern, können für das generative LLM eine Herausforderung darstellen, präzise Lösungen und Testfälle zu erstellen. Dies deutet auf eine Begrenzung der aktuellen Modelle bei der Bewältigung von Aufgaben mit langer Planungshorizont hin.

Zukünftige Arbeiten könnten die in InfoSynth entwickelten Ideen nutzen, um noch robustere, neuere und vielfältigere Benchmarks zu schaffen. Dies könnte die Integration weiterer informationstheoretischer Prinzipien oder fortgeschrittener generativer Modelle umfassen.

Schlussfolgerung

InfoSynth stellt einen wichtigen Schritt zur Automatisierung und Verbesserung der Benchmark-Erstellung für Large Language Models dar. Durch die Kombination von informationstheoretischen Metriken und genetischen Algorithmen bietet das Framework einen skalierbaren und selbstverifizierenden Ansatz zur Generierung hochwertiger, neuartiger und vielfältiger Codierungs-Datensätze. Die Fähigkeit, die Eigenschaften der generierten Probleme zu steuern und durch iteratives Feedback deren Robustheit zu verbessern, macht InfoSynth zu einem wertvollen Werkzeug für die zukünftige Forschung und Entwicklung im Bereich der LLM-Bewertung.

Bibliography - Garg, I., Kolhe, N., Zhao, X., & Song, D. (2026). InfoSynth: Information-Guided Benchmark Synthesis for LLMs. arXiv preprint arXiv:2601.00575. - Garg, I., Kolhe, N., Zhao, X., & Song, D. (2026). INFORMATION-GUIDED BENCHMARK SYNTHESIS FOR LLMS. OpenReview.net. - Hugging Face. (2026). Daily Papers. - Li, Y., Parsert, J., & Polgreen, E. (2024). Guiding Enumerative Program Synthesis with Large Language Models. In Computer Aided Verification (pp. 280-301). Springer, Cham. - ChatPaper. (2026). InfoSynth: Information-Guided Benchmark Synthesis for LLMs. - Barke, S., Gonzalez, E. A., Kasibatla, S. R., Berg-Kirkpatrick, T., & Polikarpova, N. (2024). HYSYNTH: Context-Free LLM Approximation for Guiding Program Synthesis. arXiv preprint arXiv:2405.15880. - Fugu-MT: arXiv viewer. (n.d.).