Fortschritte in der KI-unterstützten mathematischen Forschung durch den KI Co-Mathematiker

Kategorien:

No items found.

Freigegeben:

May 8, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die KI-Forschung hat in den letzten Jahren erhebliche Fortschritte im Bereich der mathematischen Problemlösung erzielt, insbesondere bei wettbewerbsorientierten Aufgaben.
Der "KI Co-Mathematiker" ist eine neue Entwicklung, die darauf abzielt, Mathematiker bei offener Forschung zu unterstützen, indem sie KI-Agenten interaktiv nutzt.
Das System bietet einen zustandsbehafteten Arbeitsbereich, der Exploration, Literaturrecherche, rechnerische Experimente, den Beweis von Theoremen und den Aufbau von Theorien unterstützt.
Ein zentrales Designprinzip ist die Orchestrierung von KI-Funktionen in einem langfristigen, kollaborativen Workflow, der menschliche Arbeitsweisen widerspiegelt.
Frühe Tests zeigen, dass der KI Co-Mathematiker Forschenden dabei hilft, offene Probleme zu lösen, neue Forschungsrichtungen zu identifizieren und übersehene Literatur zu entdecken.
Das System erreichte eine neue Höchstpunktzahl von 48 % auf dem FrontierMath Tier 4 Benchmark, was seine Leistungsfähigkeit bei komplexen Problemen unterstreicht.
Trotz vielversprechender Ergebnisse bestehen weiterhin Herausforderungen, darunter die Neigung von KI-Agenten zu "Halluzinationen" und die Notwendigkeit einer menschlichen Steuerung bei unproduktiven Forschungsrichtungen.

Die Landschaft der mathematischen Forschung erlebt durch die Fortschritte in der Künstlichen Intelligenz (KI) einen tiefgreifenden Wandel. Während KI-Systeme in den letzten Jahren beeindruckende Fähigkeiten bei der Lösung mathematischer Probleme gezeigt haben, die oft an die menschliche Leistungsfähigkeit bei Wettbewerben heranreichen oder diese sogar übertreffen, steht die Integration dieser Technologien in den explorativen und iterativen Alltag der mathematischen Forschung noch am Anfang. Ein neues Konzept, der sogenannte „KI Co-Mathematiker“, verspricht hier eine Brücke zu schlagen und Mathematiker in ihrer Arbeit maßgeblich zu unterstützen.

Der KI Co-Mathematiker: Ein Agenten-basiertes System für die mathematische Forschung

Der "KI Co-Mathematiker" stellt eine Werkbank dar, die es Mathematikerinnen und Mathematikern ermöglicht, KI-Agenten interaktiv für die Bearbeitung offener Forschungsfragen zu nutzen. Das System wurde entwickelt, um eine umfassende Unterstützung für die explorative und iterative Natur mathematischer Arbeitsabläufe zu bieten. Dazu gehören Aspekte wie Ideenfindung, Literaturrecherche, rechnerische Exploration, Theorembeweise und der Aufbau von Theorien. Durch die Bereitstellung eines asynchronen, zustandsbehafteten Arbeitsbereichs, der Unsicherheiten managt, Benutzerabsichten verfeinert, gescheiterte Hypothesen verfolgt und native mathematische Artefakte ausgibt, spiegelt das System menschliche kollaborative Arbeitsweisen wider. Erste Tests haben gezeigt, dass der KI Co-Mathematiker Forschenden dabei half, offene Probleme zu lösen, neue Forschungsrichtungen zu identifizieren und übersehene Literaturhinweise aufzudecken.

Designprinzipien für KI-gestützte Mathematik

Das übergeordnete Ziel des Designs ist es, menschliche Mathematiker in ihrer Arbeit zu unterstützen. Die Entwicklung des KI Co-Mathematikers basiert auf mehreren Kernprinzipien, die sowohl historische Berichte über mathematische Praktiken als auch Erfahrungen mit früheren Systemen zur mathematischen Entdeckung berücksichtigen:

Mathematik jenseits von Beweisen: Echte mathematische Entdeckungen umfassen eine komplexe Mischung von Aktivitäten, die über das reine Beweisen von Theoremen hinausgehen, wie das iterative Verfeinern von Forschungsfragen, das Durchforsten von Literatur, Brainstorming und die Durchführung umfangreicher Berechnungen und numerischer Simulationen zur Intuitionsbildung. Das System ist darauf ausgelegt, diese ganzheitliche, multimodale Realität zu unterstützen.
Unterstützung iterativer Absichtsverfeinerung: Im Gegensatz zu vielen anderen Bereichen, in denen Benutzer von Anfang an genau wissen, was sie wollen, ist der Prozess der Entdeckung in der Mathematik stark von kontinuierlicher Iteration und Verfeinerung abhängig. Das System bietet eine flexible Schnittstelle, die mehrere Explorationspfade unterstützt, sodass Benutzer Definitionen, Fragen und Vermutungen fließend verfeinern können.
Erzeugung nativer mathematischer Artefakte: Anstatt flüchtige Chat-Protokolle oder vorzeitig ausgearbeitete Manuskripte zu produzieren, konzentriert sich der KI Co-Mathematiker auf ein lebendiges "Arbeitspapier". Das System verfolgt den sich entwickelnden Zustand der Forschung und visualisiert ihn durch Inline-Text und Randnotizen, um den Benutzern zu helfen, ihr mentales Modell zu rekonstruieren.
Asynchrone Interaktion und flexible Steuerung: Mathematische Forschung ist selten ein linearer Prozess. Das System agiert als asynchrones Team, wobei ein Nachrichtensystem es mehreren spezialisierten Agenten ermöglicht, parallel zu arbeiten. Dies erlaubt es, erhebliche Rechenressourcen für ein Problem bereitzustellen, ohne den Benutzer zu blockieren. Der Benutzer kann jederzeit mit einem zentralen Projektkoordinator-Agenten kommunizieren, um einzugreifen und die laufende Forschung zu steuern.
Management der kognitiven Belastung durch progressive Offenlegung: Um die Menge der dem Mathematiker offenbarten Informationen zu kontrollieren, nutzt die kollaborative Schnittstelle progressive Offenlegung. Sie trennt hochrangige Absichten von der Ausführung auf niedriger Ebene. Standardmäßig interagiert der Benutzer hauptsächlich mit dem Projektkoordinator-Agenten, der die detaillierten Ausführungsgespräche der spezialisierten Agenten herausfiltert.
Verfolgung, Verwaltung und Kommunikation von Unsicherheit: Mathematische Entdeckungen erfordern hohe Standards der Genauigkeit. Das System verfolgt Unsicherheiten durch eine detaillierte Versionsgeschichte, verwaltet sie durch den Austausch von Rechenleistung für Validierung (z. B. durch kontinuierliche Überprüfungen, numerische Simulationen und systematische Zitatüberprüfungen) und kommuniziert Reibungen, indem es erkennt, wann der Überprüfungsprozess an bestimmten Teilen eines Arguments ins Stocken gerät.
Bewahrung der Geschichte fehlgeschlagener Explorationen: In der mathematischen Forschung ist es oft genauso wichtig zu wissen, was nicht funktioniert, wie zu wissen, was funktioniert. Das System behandelt Sackgassen als erstklassige, dauerhafte Ergebnisse, anstatt diese stillschweigend neu zu starten oder die Geschichte dieser erfolglosen Versuche zu löschen.

Der KI Co-Mathematiker in der Praxis: Ein Fallbeispiel

Um die Anwendung dieser Designprinzipien zu veranschaulichen, kann ein typischer Arbeitsablauf mit dem KI Co-Mathematiker an einem Beispiel aus der rechnergestützten Geometrie betrachtet werden: der Beweis von Obergrenzen für die Fläche eines "Sofas", das um rechtwinklige Ecken bewegt werden kann.

Initialexploration und Aufgabenverteilung

Im Gegensatz zu einem standardmäßigen Chatbot, der eine perfekte Eingabe erfordert, beginnt der KI Co-Mathematiker mit einer interaktiven Onboarding-Phase. Hierbei hilft das System dem Benutzer, seine Absicht zu formalisieren. Nach der Klärung der Forschungsfrage und der hochrangigen Ziele delegiert der Projektkoordinator-Agent Aufgaben an parallele Arbeitsströme. Jeder dieser Arbeitsströme ist einem der vorab genehmigten Ziele zugeordnet und wird von einem eigenen Arbeitsstrom-Koordinator-Agenten verwaltet. Diese Struktur ermöglicht es dem System, die kognitive Belastung des Benutzers durch progressive Offenlegung zu managen. Aktuell basieren die spezialisierten Sub-Agenten auf Standard-LLM-Aufrufen (einschließlich Gemini Deep Think), können aber in Zukunft auch fortgeschrittenere Forschungssysteme wie AlphaEvolve oder AlphaProof integrieren.

Interaktive Steuerung und harte Einschränkungen

Bei der Lösung schwieriger Forschungsprobleme neigen Standard-KI-Agenten dazu, ungültige Abkürzungen zu finden, Lemmata zu halluzinieren oder Erfolge vorzeitig zu beanspruchen. Ein Merkmal des KI Co-Mathematikers ist die Anwendung harter programmatischer Einschränkungen, um diese Fehler zu verhindern, kombiniert mit aktiver menschlicher Steuerung. Wenn beispielsweise bei einer rechnerischen Exploration der Suchraum explodiert, kann der naive Ansatz fehlschlagen. In diesem Fall ist der Coding-Sub-Agent an strenge Regeln gebunden: Er kann Code erst als fertig markieren, wenn seine Tests bestanden sind und ein Überprüfungs-Agent die Gültigkeit des Codes akzeptiert. Bei Blockaden fordert der Projektkoordinator-Agent transparent menschliche Hilfe an. Der Benutzer kann dann über die Chat-Schnittstelle aktiv eingreifen und neue Strategien vorschlagen.

Die Endausgabe

Das Endergebnis eines Arbeitsstroms ist kein flüchtiges Chat-Nachricht, sondern eine kompilierte und überprüfte LaTeX-Ausarbeitung. Diese "Working Paper" muss bestimmte Kriterien erfüllen, um natürliche mathematische Artefakte zu produzieren:

Darstellung: Der Entwurf muss eine Erklärung des Forschungsprozesses enthalten, der zum Ergebnis führte, nicht nur das Endergebnis.
Randanmerkungen: Das Dokument verwendet Randnotizen, um zusätzliche Informationen bereitzustellen und Behauptungen explizit mit dem Arbeitsbereich zu verknüpfen.
Interne Verknüpfung: Neben externer Literatur werden auch Verweise auf interne, von den Agenten erstellte Dokumente gemacht.
Überprüfungsprozess: Bevor ein Bericht finalisiert werden kann, muss er einem Peer-Review-Prozess unterzogen werden, bei dem er von mehreren KI-Reviewer-Agenten auf Inhalt und Stil geprüft wird.

Evaluierung interaktiver mathematischer Agenten

Traditionell wurde der Fortschritt der KI in der Mathematik anhand statischer Problemlösungs-Benchmarks gemessen. Systeme wie IMO ProofBench und FrontierMath sind hierbei wichtige Referenzpunkte. Mit der zunehmenden Leistungsfähigkeit von KI-Systemen, die Expertenniveau erreichen oder übertreffen, verlagert sich der Fokus jedoch zunehmend auf Fähigkeiten, die die breiteren Arbeitsabläufe professioneller Mathematiker widerspiegeln.

Dies impliziert, dass KI-Systeme an einer breiteren Palette von Aufgaben gemessen werden sollten. Benchmarks wie DeepSearchQA für die allgemeine Faktenfindung und Hard2Verify für die Fehlersuche in mathematischen Beweisen messen Fähigkeiten, die genaue Entsprechungen im mathematischen Forschungsprozess haben. Es fehlen jedoch noch ähnliche Benchmarks für den Bereich der professionellen Forschungsmathematik. Zudem sollten KI-Systeme für die Mathematik standardmäßig als "Human-in-the-Loop" betrachtet und Fortschritte entsprechend bewertet werden.

Frühe Ergebnisse mit Mathematikern

Im Rahmen der Bemühungen, interaktive Werkzeuge breiter verfügbar zu machen, erhielten einige professionelle Mathematiker Zugang zum KI Co-Mathematiker für ihre eigene Forschung. Die Bandbreite der Anwendungsfälle, die von den frühen Benutzern erkundet wurden, spiegelt die breite Anwendbarkeit des Systems und seine Integration in Standard-Forschungsabläufe wider. Der KI Co-Mathematiker war eine funktionale Hilfe bei der Navigation durch unterschiedliche Literaturen, der Durchführung numerischer Experimente und dem Erhalt von Beweisen in verschiedenen mathematischen Domänen.

Fallstudie: Ein Kourovka-Problem

Ein früher Benutzer, M. Lackenby, nutzte den KI Co-Mathematiker, um mehrere Probleme in Topologie und Gruppentheorie zu untersuchen. Seine Arbeit führte zur Lösung einer offenen Frage (Problem 21.10 aus dem Kourovka Notebook). Das Problem fragt, ob jede endliche Gruppe eine "just finite presentation" zulässt. Die Antwort erwies sich als bejahend. Lackenbys Prozess verdeutlicht den Wert einer "Mathematician-in-the-Loop"-Interaktion. Trotz eines anfänglich als fehlerhaft markierten Beweises erkannte Lackenby eine "wirklich, wirklich clevere Beweisstrategie" und konnte die Lücke mit seiner eigenen Expertise schließen. Der KI Co-Mathematiker schrieb daraufhin einen vollständigen und korrekten Beweis. Dieser Fall zeigt, dass der wechselseitige Austausch zwischen KI und Mathematiker entscheidend für die Problemlösung war.

Fallstudie: Stirling-Koeffizienten

Ein weiterer früher Benutzer, G. Bérczi, nutzte den KI Co-Mathematiker, um ein Problem bezüglich des Verhaltens von Stirling-Koeffizienten für symmetrische Potenzdarstellungen anzugehen. Die Vermutungen besagten, dass in einer bestimmten Binomialentwicklung die Koeffizienten nicht nur streng positiv sind, sondern auch eine log-konkave Sequenz bilden. Der KI Co-Mathematiker erbrachte Beweise für zwei der Vermutungen und lieferte detaillierte rechnerische Belege. Bérczi hob hervor, dass das System ihm half, wichtige Erkenntnisse zu gewinnen, betonte aber auch, dass die Zusammenarbeit mit KI-Systemen Geschick erfordert.

Fallstudie: Ein Lemma in Hamiltonschen Systemen

S. Rezchikov, ein dritter früher Benutzer, stellte ein technisches Teilproblem aus seiner Forschung zur Existenz von Störungen einer spezifischen Klasse Hamiltonscher Diffeomorphismen. Das System lieferte ein Schlüssel-Lemma mit einem eleganten Beweis, der die gestellte Frage im Wesentlichen löste. Rezchikov bemerkte, dass andere KI-Systeme mit demselben Prompt das Ergebnis nicht reproduzieren konnten. Er hob hervor, dass das System ihm half, Sackgassen schneller zu erkennen und die Qualität der korrekten Beweise als ästhetisch ansprechend empfand.

Ergebnisse von Problemlösungs-Benchmarks

Obwohl die breitere Messung von Fähigkeiten angestrebt wird, sind Problemlösungs-Benchmarks derzeit die besten objektiven Maße für die Leistung von KI-Systemen in der Mathematik. Der KI Co-Mathematiker wurde in einem angepassten Modus evaluiert, der externe Eingaben über eine anfängliche Frage hinaus ausschließt und eine einzige finale Antwort liefert. Das System zeigte eine signifikante Leistungssteigerung gegenüber den zugrunde liegenden Basismodellen (Gemini 3.1 Pro und Gemini Deep Think) auf einem internen Benchmark von 100 Forschungsmathematik-Problemen. Es übertraf auch andere KI-Systeme auf dem externen FrontierMath Tier 4 Benchmark mit einer neuen Höchstpunktzahl von 48% korrekter Lösungen. Dies unterstreicht die Wirksamkeit der parallelen Untersuchungszweige, erzwungenen Überprüfungszyklen und Werkzeugimplementierungen des KI Co-Mathematikers.

Herausforderungen und Limitationen

Obwohl der KI Co-Mathematiker das Potenzial interaktiver KI-Workflows demonstriert, wurden bei der Entwicklung mehrere Schwierigkeiten festgestellt, die die Nützlichkeit des Systems beeinflussen.

Reviewer-Pleasing Bias (Falscher Konsens): Der iterative Überprüfungsprozess kann dazu führen, dass das System zu einem Argument konvergiert, das fehlerhaft bleibt, dessen Fehler aber vom Reviewer-Agenten nicht mehr erkannt werden können. Dies stellt eine Verletzung des Prinzips der expliziten Anerkennung von Unsicherheit dar.
Unlösbare Meinungsverschiedenheiten (Nicht-Terminierung): Umgekehrt kann der iterative Überprüfungsprozess in einer Endlosschleife von Revisionen und Ablehnungen stecken bleiben, wenn kein Konsens erzielt wird. Dies kann zu zunehmend "halluzinierenden" Argumentationen führen, einem Phänomen, das umgangssprachlich als "Todespirale" bekannt ist.
Systemautonomie erfordert Kontrollabgabe: Mathematische Forschung ist von Natur aus explorativ, und eine vordefinierte Aufgabenplanung ist oft unmöglich. Das Modell kann auf ungeplante Schwierigkeiten stoßen, und die Einschätzung dessen, was in solchen Fällen zu tun ist, liegt weit hinter den menschlichen Fähigkeiten zurück.
Semantische Bedeutung von Repräsentationen: Mathematiker neigen dazu, ein gut gesetztes Dokument mit einem entsprechenden Grad an Genauigkeit im Inhalt zu assoziieren. LLMs sind jedoch ausgezeichnet darin, fehlerfreies LaTeX zu generieren, während sie oft mit der rigorosen logischen Verifikation kämpfen.

Darüber hinaus birgt die Einführung leistungsfähiger, agentischer Systeme in das mathematische Ökosystem gewisse Risiken:

Aufrechterhaltung des Signal-Rausch-Verhältnisses in der Literatur: Wenn KI-Tools häufig als autonome Generatoren und nicht als menschlich gesteuerte Kollaborateure eingesetzt werden, könnte dies zu einem Anstieg plausibler, aber oberflächlicher, inkrementeller oder subtil fehlerhafter Arbeiten führen.
Anpassung des Peer-Review-Ökosystems: Der mathematische Peer-Review-Prozess beruht auf einer tiefgehenden, intensiven menschlichen Verifizierung. Agentische KI führt eine neue Herausforderung ein: Ein System kann einen 20-seitigen Beweisversuch in Minuten generieren, aber ein menschlicher Experte kann Tage für die Verifizierung benötigen.

Fazit

Die KI-Gemeinschaft hat in jüngster Zeit zahlreiche technische Meilensteine erreicht und demonstriert menschliches und übermenschliches Leistungsniveau in einer Vielzahl mathematischer Benchmarks. Um die wissenschaftliche Entdeckung jedoch wirklich zu beschleunigen, ist die Lösung statischer, wohldefinierter Probleme nur ein Teil der Lösung. Die Grenze der mathematischen Forschung ist kein lineares Gespräch oder eine Reihe unzusammenhängender Rätsel; es ist ein chaotischer, überlappender, hoch iterativer Prozess, der durch unbewiesene Intuition, verzweigte Hypothesen und komplexe menschliche Zusammenarbeit definiert ist.

Der KI Co-Mathematiker wurde entwickelt, um Forschende in ihrer Arbeitsweise zu unterstützen. Anstatt KI auf ein isoliertes Orakel oder eine einfache Verifizierungspipeline zu reduzieren, fungiert das System als ganzheitlicher Arbeitsbereich. Indem es den Lebenszyklus von Unsicherheit managt, menschliche Arbeitsabläufe durch hierarchische Delegation widerspiegelt und seine Ausgabe in nativen mathematischen Artefakten verankert, erhebt es leistungsstarke Basismodelle zu natürlichen Kollaborateuren. Durch harte programmatische Einschränkungen und die kontinuierliche Pflege eines lebendigen "Arbeitspapiers" stellt das System sicher, dass die gesamte Forschungsreise – die fehlgeschlagenen Tests, die synthetisierte Literatur und die kontinuierliche Verfeinerung einer Idee – erfasst, geprüft und dem Benutzer explizit mitgeteilt wird. Wie frühe Benutzer durch die Lösung offener Probleme und das Finden neuartiger Beweise gezeigt haben, ermöglicht dieser bidirektionale Austausch es Menschen, die KI effektiv durch schwierige Engpässe zu steuern.

Die Ausschöpfung des vollen Potenzials dieses Paradigmas erfordert jedoch eine Änderung der Art und Weise, wie die KI-Gemeinschaft Erfolge misst. Während die aktuellen Benchmarks hervorragend geeignet sind, die Fähigkeit eines Modells zur Generierung einer endgültigen Antwort auf ein kuratiertes Problem zu bewerten, erfassen sie nicht den vollen Umfang der Spitzenforschung. Sie sind nicht darauf ausgelegt, die Fähigkeit eines Systems zu messen, einen Hypothesenbaum interaktiv zu beschneiden, Nischenliteratur zu synthetisieren oder Unsicherheiten angemessen anzuhalten und offenzulegen, wenn die Skalierung fehlschlägt.

Um Systeme zu entwickeln, die als echte Co-Mathematiker fungieren, müssen komplementäre Bewertungsrahmen entwickelt werden, die die kollaborative Wirksamkeit, die zustandsbehaftete Exploration und das rigorose Management von Unsicherheit messen. Die nächste Revolution in der KI-gestützten Mathematik wird nicht nur durch das Modell definiert, das die richtige Antwort am schnellsten synthetisieren kann, sondern durch das System, das menschlichen Forschenden am effektivsten helfen kann, das Unbekannte zu navigieren.

Danksagungen

Wir danken Edward Lockhart, Allison Woodruff, Juanita Bawagan, Uchechi Okereke, Thang Luong für die Überprüfung dieses Berichts.

Anna Trostanetski, Andrey Petrov, Matin Akhlaghinia, Victoria Johnston, Nick Dietrich für ihre Hilfe bei der Verbesserung des Bereitstellungs-Setups und der Zuverlässigkeit des Prototyp-Systems.

Mariana Felix, Francesca Pietra für die Beratung zur Externalisierung und Partnerschaften.

Uchechi Okereke, Gemma Gibbs für rechtliche Beratung.

Adriana Lara, Armin Senoner, Danielle Breen, Duncan Smith, Juanita Bawagan für die Beratung zur Kommunikationsstrategie und Namensgebung.

Henryk Michalewski für die Pflege des internen Datensatzes mathematischer Forschungsprobleme.

Greg Burnham (Epoch AI) für die Koordination der FrontierMath-Evaluierung.

Ellen Jiang für UI-Beratung und Verbesserungen.

Victoria Johnston, Doug Fritz, Felix Riedel für Frontend-Code-Reviews.

Sébastien Racaniere, Romu Elie für die Kommunikation mit frühen Testern und Mitgliedern der mathematischen Gemeinschaft und die Rückmeldung von Erkenntnissen und Anfragen von diesen.

Richard Bamler, Johannes Bausch, Mehdi Bennani, Gergely Bérczi, David Berghaus, Otis Chodosh, Bennett Chow, Maria Chudnovsky, Romu Elie, Sergey Galkin, Javier Gómez-Serrano, Matt Harvey, Amaury Hayat, Marcus Hutter, Ray Jiang, Ayush Khaitan, Alex Kontorovich, Robin Kothari, Marc Lackenby, Tor Lattimore, Igor Makhlin, Johan Martens, Alex Matthews, Stanislav Nikolov, Georg Ostrovski, Stan Palasek, Sébastien Racaniere, Danylo Radchenko, Johannes Ruf, Julian Salazar, Simone Severini, Phiala Shanahan, Iain Smears, Elahe Vedadi, Adam Zsolt Wagner, für das Testen des Systems und das Geben von Feedback.

Javier Gómez-Serrano und Terence Tao für frühe Tests und Feedback zu den Literaturrecherchefunktionen.

Nada Baessa, Bruno Vergara Biggio, Semon Rezchikov für detaillierte Tests, Überprüfung der Ausgaben, detailliertes Feedback, Feature-Anfragen.

Allison Woodruff, Patrick Gage Kelley für Hilfe bei der Befragung früher Benutzer und der Sammlung von Feedback.

Marc Lackenby für Feedback zur mathematischen Leistung des Systems, Input zum Workflow- und Interface-Design und tiefe mathematische Zusammenarbeit.

JD Velasquez, Yunhan Xu für die Beratung zu Vertriebs- und Produktgesichtspunkten.

Victor Martin, Stig Petersen, Petko Yotov, Hamish Tomlinson, Sam Blackwell für die Beschaffung von Rechenleistung und die Unterstützung beim Modell-Serving.

Sam Blackwell für technische Unterstützung und Beratung.

Stig Petersen für technische Überprüfung.

Das IAS in Princeton für die Ausrichtung eines gemeinsamen Workshops im letzten Jahr, bei dem viele dieser Themen diskutiert wurden.

Gemini 3.1 Pro wurde in verschiedenen Phasen der Erstellung dieses Manuskripts verwendet, um Teile des Haupttextes zu entwerfen, von Menschen verfasste Abschnitte Korrektur zu lesen und Abbildungen und Diagramme zu erstellen und zu iterieren.

Beiträge

Y.Z. entwarf den ersten Prototyp des Systems. Y.Z., I.V.G., D.Z., I.B., L.B., A.D. setzten die Entwicklung des Kernsystems und der Benutzeroberfläche fort und forschten an der Verbesserung der Fähigkeiten, mit Input von V.K. zu Forschungsideen. M.W., D.K. lieferten Input und Tests während der Prototyp-Iterationen. M.W. entwarf Schlüsselelemente der Benutzeroberfläche und des Workflows, F.V. entwarf die visuelle Sprache und weitere UI-Elemente. T.S. entwickelte den Weg für externe Benutzer zum Zugriff auf das System. S.A. entwickelte die Systemanforderungen für die Externalisierung. I.V.G., Y.Z., D.Z., I.B., L.B., A.C., T.S. pflegten das System für externe Benutzer. Y.Z., I.V.G., D.Z., I.B., L.B., D.M.R., H.M. bereiteten das System für interne und externe Evaluierungen vor. D.M.R., M.W., D.Z. schrieben das Papier, mit Input von I.V.G., Y.Z., A.D., B.G., F.V. F.V., M.W., D.Z., D.M.R. erstellten die Diagramme. B.G. koordinierte die externe Benutzergemeinschaft. D.Z., I.V.G. und G.H. koordinierten das Team. A.D. und D.Z. entwickelten die Gesamtstrategie. A.D. und P.K. betreuten das Forschungsprogramm.

Bibliographie

- "Accelerating Mathematicians with Agentic AI - arXiv" (2026). - "AI Mathematician as a Partner in Advancing Mathematical Discovery — A Case Study in Homogenization Theory" by Yuanhang Liu, Beichen Wang, Peng Li, Yang Liu (2025). - "AI Will Become Mathematicians’ ‘Co-Pilot’ – Christoph Droesser" by cd (2024). - "Towards Autonomous Mathematics Research" by Tony Feng (2026). - "THE AGENTIC RESEARCHER: A PRACTICAL GUIDE TO AI-ASSISTED RESEARCH IN MATHEMATICS AND MACHINE LEARNING" by Max Zimmer, Nico Pelleriti, Christophe Roux, Sebastian Pokutta (2026). - "Building Math Agents with Multi-Turn Iterative Preference Learning" by Wei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu (2024).