Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Large Language Models (LLMs) hat zu bemerkenswerten Fortschritten in Bereichen wie Reasoning und Codegenerierung geführt. Doch die effiziente Erstellung neuer Benchmarks zur fundierten Bewertung dieser Fähigkeiten bleibt eine signifikante Herausforderung. Traditionelle Ansätze zur Benchmark-Erstellung sind oft mit erheblichem manuellem Aufwand, hohen Kosten und einem beträchtlichen Zeitaufwand verbunden. Zudem besteht die Problematik, dass bestehende Benchmarks die Trainingsdaten von LLMs kontaminieren können, was die Aussagekraft von Leistungsmessungen beeinträchtigt. Um diesen Herausforderungen zu begegnen und eine präzisere Bewertung der tatsächlichen Fähigkeiten von LLMs zu ermöglichen, wurde das Framework InfoSynth entwickelt.
InfoSynth ist ein innovatives Framework, das darauf abzielt, die Erstellung und Bewertung von Reasoning-Benchmarks für LLMs zu automatisieren. Es basiert auf informationstheoretischen Prinzipien und genetischen Algorithmen, um neuartige und vielfältige Problemstellungen zu generieren. Das Framework konzentriert sich dabei auf zwei zentrale Eigenschaften von Benchmarks: Neuartigkeit und Diversität.
Ein Kernaspekt von InfoSynth ist die Einführung von Metriken zur Quantifizierung der Neuartigkeit und Diversität von Benchmarks. Diese Metriken basieren auf informationstheoretischen Konzepten wie der KL-Divergenz und der Entropie. Die KL-Divergenz wird verwendet, um die Neuartigkeit eines Datensatzes im Vergleich zu bestehenden Datensätzen zu erfassen. Ein Datensatz wird als neuartig betrachtet, wenn seine Problemstellungen sich signifikant von denen in bereits vorhandenen Datensätzen unterscheiden. Die Entropie hingegen misst die Diversität innerhalb eines Datensatzes, also die Bandbreite und Variation der enthaltenen Probleme. Eine hohe Entropie deutet auf eine breite Abdeckung verschiedener Problemtypen hin, was die Robustheit eines LLM gegenüber Overfitting erhöht.
Ein wesentlicher Vorteil dieses Ansatzes ist, dass diese Metriken die Bewertung von Benchmarks ermöglichen, ohne auf aufwendige Modellbewertungen angewiesen zu sein, welche rechenintensiv und zeitaufwändig sein können. Stattdessen werden die Problemstellungen in einen Embedding-Raum projiziert, und die informationstheoretischen Metriken werden auf den Verteilungen dieser Embeddings berechnet.
InfoSynth implementiert eine End-to-End-Pipeline zur Synthese robuster Python-Codierungsprobleme. Diese Pipeline nutzt genetische Algorithmen und iteratives Code-Feedback, um hochwertige, neuartige und diverse Benchmarks aus Seed-Datensätzen zu generieren. Die Hauptkomponenten der Pipeline umfassen:
Die Wirksamkeit von InfoSynth wurde anhand umfangreicher Experimente validiert. Die Ergebnisse zeigen, dass InfoSynth in der Lage ist, Datensätze zu erzeugen, die im Vergleich zu den ursprünglichen Seed-Datensätzen eine höhere Neuartigkeit und Diversität aufweisen. Zum Beispiel demonstrieren die generierten Datensätze MBPP-New und Leetcode-New eine signifikant höhere Neuartigkeit und Diversität im Vergleich zu ihren Originalversionen.
Ein wichtiges Merkmal von InfoSynth ist die Möglichkeit, die Eigenschaften der generierten Probleme zu steuern. Durch die Variation der Mutationsschwierigkeiten kann beispielsweise die Schwierigkeit der generierten Benchmarks angepasst werden. Experimente zeigten, dass "harte" Mutationen die Problemschwierigkeit effektiv erhöhen, was jedoch zu einem Kompromiss bei der Diversität und Neuartigkeit führen kann, da sich die Probleme auf weniger, aber anspruchsvollere Themen konzentrieren.
Die k-Farthest-Neighbor-Filterung verbessert die Neuartigkeit und Diversität, kann aber dazu führen, dass einfachere Probleme generiert werden. Dies verdeutlicht den Trade-off zwischen Neuartigkeit, Diversität und Schwierigkeit, den InfoSynth steuern kann. Datensätze mit hoher Diversität neigen dazu, sich in Regionen geringer Dichte der Seed-Embedding-Verteilung zu konzentrieren, was die Neuartigkeit erhöht, aber die Diversität verringert. Filterung und Nachbearbeitung verbessern die Diversität zuverlässig.
Das iterative Code-Feedback ist ein entscheidender Faktor für die Robustheit der generierten Probleme. Die Anzahl der erfolgreich durchlaufenen Lösungs-Test-Paare steigt über mehrere Feedback-Iterationen hinweg signifikant an. Fehlerquoten sinken, da das LLM Syntax- und Laufzeitprobleme behebt. Drei Iterationen erwiesen sich in der Regel als optimal, da weitere Iterationen nur geringfügige zusätzliche Gewinne bei deutlich höherem Inferenzaufwand erzielen würden.
Im Vergleich zu anderen Methoden zur Problemgenerierung wie GeneticInstruct und KodCode zeigt InfoSynth eine überlegene Fähigkeit, neuartige Probleme zu erzeugen. Während InfoSynth und GeneticInstruct eine ähnliche Diversität aufweisen, ist InfoSynth der Methode, die sich durch die höchste Neuartigkeit auszeichnet. Dies deutet darauf hin, dass InfoSynth in der Lage ist, Probleme zu generieren, die sich substanziell von ihren Seed-Daten unterscheiden.
Trotz der Erfolge identifiziert die Forschung auch Bereiche für weitere Verbesserungen. Probleme, die durch wiederholtes Crossover bereits komplexer Probleme entstehen oder signifikante numerische Berechnungen erfordern, können für das generative LLM eine Herausforderung darstellen, präzise Lösungen und Testfälle zu erstellen. Dies deutet auf eine Begrenzung der aktuellen Modelle bei der Bewältigung von Aufgaben mit langer Planungshorizont hin.
Zukünftige Arbeiten könnten die in InfoSynth entwickelten Ideen nutzen, um noch robustere, neuere und vielfältigere Benchmarks zu schaffen. Dies könnte die Integration weiterer informationstheoretischer Prinzipien oder fortgeschrittener generativer Modelle umfassen.
InfoSynth stellt einen wichtigen Schritt zur Automatisierung und Verbesserung der Benchmark-Erstellung für Large Language Models dar. Durch die Kombination von informationstheoretischen Metriken und genetischen Algorithmen bietet das Framework einen skalierbaren und selbstverifizierenden Ansatz zur Generierung hochwertiger, neuartiger und vielfältiger Codierungs-Datensätze. Die Fähigkeit, die Eigenschaften der generierten Probleme zu steuern und durch iteratives Feedback deren Robustheit zu verbessern, macht InfoSynth zu einem wertvollen Werkzeug für die zukünftige Forschung und Entwicklung im Bereich der LLM-Bewertung.
Bibliography - Garg, I., Kolhe, N., Zhao, X., & Song, D. (2026). InfoSynth: Information-Guided Benchmark Synthesis for LLMs. arXiv preprint arXiv:2601.00575. - Garg, I., Kolhe, N., Zhao, X., & Song, D. (2026). INFORMATION-GUIDED BENCHMARK SYNTHESIS FOR LLMS. OpenReview.net. - Hugging Face. (2026). Daily Papers. - Li, Y., Parsert, J., & Polgreen, E. (2024). Guiding Enumerative Program Synthesis with Large Language Models. In Computer Aided Verification (pp. 280-301). Springer, Cham. - ChatPaper. (2026). InfoSynth: Information-Guided Benchmark Synthesis for LLMs. - Barke, S., Gonzalez, E. A., Kasibatla, S. R., Berg-Kirkpatrick, T., & Polikarpova, N. (2024). HYSYNTH: Context-Free LLM Approximation for Guiding Program Synthesis. arXiv preprint arXiv:2405.15880. - Fugu-MT: arXiv viewer. (n.d.).Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen