Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von KI-Agenten, die komplexe Forschungsaufgaben autonom planen, durchsuchen, Beweise bewerten und detaillierte Berichte erstellen können, stellt das Reinforcement Learning (RL) vor grosse Herausforderungen. Insbesondere bei Aufgaben, bei denen es keine eindeutigen, überprüfbaren Antworten gibt, wie etwa bei der Erstellung von langen Forschungsberichten, sind traditionelle Belohnungssysteme oft unzureichend. Hier setzt RubricEM an, ein innovatives Framework, das darauf abzielt, diese Lücke zu schliessen und KI-Agenten zu befähigen, auch in weniger klar definierten Domänen effektiv zu lernen und zu agieren.
Herkömmliche RL-Methoden stützen sich oft auf klare, überprüfbare Belohnungen, die eine eindeutige Richtig-Falsch-Bewertung ermöglichen. Bei Aufgaben wie der Beantwortung komplexer Forschungsfragen ist dies jedoch selten der Fall. Die Qualität eines Forschungsberichts ist vielschichtig und kann nicht einfach durch eine einzelne Metrik erfasst werden. Dies führt zu mehreren Problemen für RL-Agenten:
Diese Einschränkungen erschweren es RL-Agenten erheblich, effektive Strategien für komplexe, offene Forschungsaufgaben zu erlernen.
RubricEM begegnet diesen Herausforderungen, indem es Rubriken nicht nur als Evaluierungsinstrumente am Ende eines Prozesses betrachtet, sondern als eine durchgängige Schnittstelle, die die gesamte RL-Schleife strukturiert. Das Framework integriert drei zentrale Komponenten:
RubricEM zerlegt die Forschungsaufgaben in vier semantisch definierte Phasen, die jeweils durch XML-Tags gekennzeichnet und von spezifischen Verhaltensanforderungen geleitet sind. Diese Phasen sind:
Dieser strukturierte Ansatz gewährleistet, dass Rubriken nicht nur zur Bewertung, sondern aktiv zur Steuerung der Agentenplanung, Beweiserhebung und Synthese verwendet werden. Die selbstgenerierten Rubriken bieten dabei flexible Referenzen, die dem Judge helfen, passendere Kriterien zu finden.
Anstatt eine einzelne finale Punktzahl auf alle Token zu übertragen, verwendet SS-GRPO bühnenspezifische Rubriken, um die Phasen Planung, Recherche, Überprüfung und Beantwortung zu bewerten. Ein LLM-Judge verwaltet für jede Phase einen sich entwickelnden Rubrikenpuffer, der sich anpasst, indem er mehrere Rollouts für dieselbe Abfrage vergleicht und diskriminierende Kriterien vorschlägt. Diese stufenweisen Bewertungen liefern dichtere semantische Rückmeldungen, die sowohl die lokale Bühnenqualität als auch die nachgelagerten Auswirkungen berücksichtigen. Dies ermöglicht eine präzisere Belohnungszuweisung für die Optimierung über lange Zeiträume, ohne einen expliziten Kritiker zu benötigen.
RubricEM integriert die Wiederverwendung von Erfahrungen als explizites RL-Ziel. Eine gemeinsame Basis (Shared Backbone) dient sowohl als Aufgaben-Policy als auch als Reflexions-Meta-Policy. Nach der Bewertung eines Rollouts generiert die Basis rubrikengestützte Reflexionskandidaten. Ein separater Judge bewertet diese Kandidaten, und die höchsten bewerteten Reflexionen werden in eine Rubrikenbank des Agenten als natürlicher Sprachspeicher geschrieben. Diese Bank beeinflusst zukünftige Rollouts in zwei Modi:
Dieses asynchrone Design vermeidet Engpässe und ermöglicht es, dass jede Reflexion den Agenten sowohl parametrisch als auch textuell aktualisiert.
Das entwickelte RubricEM-8B-Modell, das mit 1400 RL-Schritten trainiert wurde, zeigt beeindruckende Ergebnisse. Es erreicht in vier repräsentativen Long-Form-Forschungsbenchmarks (HealthBench, ResearchQA, DeepResearchBench (DRB) und ResearchRubrics) eine starke Leistung, übertrifft vergleichbare offene Modelle und nähert sich proprietären Deep-Research-Systemen wie Gemini und OpenAI Deep Research an. Die Analysen bestätigen, dass jede der vorgeschlagenen Komponenten – die strukturierte Gliederung, die feinkörnige Belohnungszuweisung und das Meta-Policy-Training – zu den Leistungsverbesserungen beiträgt.
Die Effizienz des RL-Trainings ist ebenfalls bemerkenswert. RubricEM erreicht höhere durchschnittliche Punktzahlen mit weniger RL-Trainingsschritten im Vergleich zu früheren Systemen wie DR Tulu. Dies deutet darauf hin, dass der strukturierte Ansatz und die verbesserte Signalgebung zu einem effektiveren Lernprozess führen.
Interessanterweise zeigt RubricEM auch eine starke Übertragbarkeit auf Short-Form-Such-Benchmarks (SimpleQA, 2WikiMultihopQA, WebWalker, DeepSearchQA), obwohl es primär für Long-Form-Forschung trainiert wurde. Diese Ergebnisse legen nahe, dass die erlernten Fähigkeiten zur Tool-Nutzung und Evidenzfundierung nicht nur für lange Berichte, sondern auch für präzisere, kürzere Antworten relevant sind.
Die Ergebnisse von RubricEM deuten darauf hin, dass LLM-generierte Rubriken nicht nur als Bewertungsartefakte, sondern als eine allgemeine Schnittstelle zur Strukturierung des Agentenverhaltens, zur Zuweisung semantischer Gutschriften und zur Akkumulation wiederverwendbarer Erfahrungen dienen sollten. Dieses Framework bietet einen vielversprechenden Weg, um die Effektivität von Reinforcement Learning in Domänen zu erweitern, in denen überprüfbare Belohnungen begrenzt oder nicht vorhanden sind.
Zukünftige Arbeiten könnten die Robustheit der Rubrikengenerierung weiter verbessern, stärkere oder Ensemble-Judges einsetzen und menschenüberprüfbare Rubrikenbanken entwickeln, um die Zuverlässigkeit und Sicherheit von KI-Agenten in kritischen Anwendungen zu gewährleisten.
RubricEM stellt einen bedeutenden Fortschritt im Reinforcement Learning für komplexe, offene Forschungsaufgaben dar. Durch die Integration von rubrikengestützter Policy-Dekonstruktion, feinkörniger Belohnungszuweisung und reflexionsbasiertem Meta-Policy-Training ermöglicht es KI-Agenten, über die Grenzen überprüfbarer Belohnungen hinaus effektiver zu lernen und zu agieren. Dies eröffnet neue Möglichkeiten für den Einsatz von KI in anspruchsvollen Forschungs- und Analysebereichen, in denen die Qualität der Ergebnisse vielfältig und schwer zu quantifizieren ist.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen