Neuer Ansatz für wissenschaftliche Veröffentlichungen durch Agent-Native Research Artifacts

Kategorien:

No items found.

Freigegeben:

May 2, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Das Konzept der "Agent-Native Research Artifacts" (ARA) schlägt eine neue Struktur für wissenschaftliche Veröffentlichungen vor, die über das traditionelle PDF-Format hinausgeht.
ARA zielt darauf ab, zwei Hauptprobleme herkömmlicher wissenschaftlicher Veröffentlichungen zu lösen: die "Storytelling Tax" (Verlust von Informationen über gescheiterte Experimente und alternative Ansätze) und die "Engineering Tax" (ungenügende Spezifikation kritischer Implementierungsdetails).
Das ARA-Protokoll organisiert Forschung in vier Schichten: Kognitive Schicht (wissenschaftliche Logik), Physische Schicht (ausführbarer Code), Explorationsgraph (Forschungsprozess) und Evidenzschicht (Rohdaten).
Ein "Live Research Manager" soll Forschungsprozesse während der Entwicklung automatisch erfassen, während ein "Ara Compiler" bestehende PDFs in das neue Format überführen kann.
Ein "Ara-Native Review System" automatisiert objektive Überprüfungen, um menschlichen Gutachtern mehr Zeit für die Bewertung von Signifikanz, Neuheit und Relevanz zu ermöglichen.
Evaluierungen zeigen, dass ARA die Genauigkeit beim Verstehen und die Reproduzierbarkeit von Forschungsergebnissen durch KI-Agenten signifikant verbessern kann.

Die Art und Weise, wie wissenschaftliche Forschung dokumentiert und verbreitet wird, steht an einem Wendepunkt. Mit dem Aufkommen leistungsfähiger KI-Agenten, die zunehmend in den Forschungsprozess eingebunden sind, werden die Grenzen des traditionellen, textbasierten Publikationsformats deutlich. Ein aktuelles Papier mit dem Titel "The Last Human-Written Paper: Agent-Native Research Artifacts" beleuchtet diese Herausforderungen und schlägt einen neuen Ansatz vor: die Agent-Native Research Artifacts (ARA).

Die Grenzen des traditionellen Forschungsberichts

Wissenschaftliche Veröffentlichungen im PDF-Format sind seit Jahrhunderten der Standard für die Verbreitung von Forschungsergebnissen. Sie komprimieren einen oft verzweigten und iterativen Forschungsprozess in eine lineare Erzählung. Dies führt zu zwei strukturellen Nachteilen, die im Kontext von KI-Agenten zunehmend an Bedeutung gewinnen:

Die "Storytelling Tax"

Forschung ist selten ein linearer Prozess. Hypothesen werden getestet und verworfen, Experimente scheitern, und alternative Ansätze werden erkundet. Das traditionelle Publikationsformat konzentriert sich jedoch auf die erfolgreichen Ergebnisse und eine kohärente, lineare Geschichte. Dies führt dazu, dass ein Großteil des während des Forschungsprozesses gewonnenen Wissens – insbesondere über gescheiterte Versuche und Sackgassen – nicht dokumentiert wird.

Für menschliche Leser mag dies tolerierbar sein, da sie in der Lage sind, implizites Wissen zu interpretieren und fehlende Informationen durch Erfahrung zu ergänzen. Für KI-Agenten, die Forschung verstehen, reproduzieren und erweitern sollen, stellt das Fehlen dieser Informationen jedoch ein kritisches Hindernis dar. Eine Analyse des METR eval-analysis-public Datensatzes, die 24.008 Agentenläufe umfasste, zeigte beispielsweise, dass 90,2 % der Gesamtkosten (und 59,2 % der Token) auf fehlgeschlagene Läufe entfielen. Ohne Zugang zu diesen Fehlertraces müssen KI-Agenten dieselben Sackgassen immer wieder neu entdecken.

Die "Engineering Tax"

Ein weiteres Problem ist die Diskrepanz zwischen der Detailtiefe, die für menschliche Gutachter ausreicht, und der Präzision, die für die Ausführung durch KI-Agenten erforderlich ist. Wissenschaftliche Artikel beschreiben Beiträge auf einem Niveau, das ausreicht, um menschliche Gutachter zu überzeugen. Der begleitende Code liefert zwar eine Implementierung, aber oft fehlen operationale Spezifikationen und implizites Wissen wie algorithmische Tricks, Implementierungsentscheidungen oder Konfigurationsdetails. Dieses "stillschweigende Wissen" wird oft nur durch direkten Laboraustausch oder mühsames Reverse Engineering weitergegeben.

Studien, die Reproduktionsanforderungen von Fachartikeln analysierten, zeigten, dass trotz weit verbreiteter Weitergabe von Artefakten nur 45,4 % der Anforderungen vollständig spezifiziert sind. Fehlende Hyperparameter allein machen 26,2 % aller Lücken aus. Dies verdeutlicht ein grundlegendes Missverhältnis zwischen der Präzision, mit der Artikel verfasst werden (ausreichend, um Glauben zu erzeugen), und der Präzision, mit der Agenten operieren müssen (ausreichend für eine korrekte Ausführung).

Agent-Native Research Artifacts (ARA): Ein neuer Standard

Um diesen Herausforderungen zu begegnen, schlägt das ARA-Protokoll vor, den primären Forschungsgegenstand von einem narrativen Dokument in ein maschinenausführbares Wissenspaket umzuwandeln. Artikel dienen dabei lediglich als kompilierte Ansichten des zugrunde liegenden Artefakts. ARA organisiert die Forschung in vier miteinander verknüpften Schichten:

1. Die Kognitive Schicht (/logic)

Diese Schicht destilliert die konzeptuellen Abstraktionen des Artikels in strukturierte, abfragbare Behauptungen und Abhängigkeitsgraphen. Sie umfasst:

problem.md: Definiert die Problemstellung und die zentrale Erkenntnis.
solution/: Spezifiziert Architektur, Algorithmus und konvergenzkritische Heuristiken.
claims.md: Listet falsifizierbare Behauptungen mit expliziten Verweisen auf Beweise.
experiments.md: Beschreibt den Verifikationsplan.
related_work.md: Ersetzt passive Zitate durch typisierte Abhängigkeiten, die von Agenten genutzt werden können, um eine maschinenausführbare Literaturübersicht zu erstellen.

2. Die Physische Schicht (/src)

Diese Schicht enthält den ausführbaren Code, der auf den Beitragstyp abgestimmt ist. Es gibt zwei Modi:

Kernel-Modus: Für algorithmische Beiträge, bei denen nur die Kernmodule mit typisierten I/O-Signaturen enthalten sind. Ein Coding-Agent kann dann bei Bedarf den umgebenden Boilerplate-Code generieren.
Repository-Modus: Für systemische Beiträge (z. B. CUDA-Kernel, verteilte Trainingsstrategien), bei denen die vollständige Implementierung erhalten bleibt, aber durch ein index.md-Manifest annotiert wird, das jede Quelldatei dem entsprechenden ARA-Bestandteil zuordnet.
configs/: Annotiert jeden Hyperparameter mit Begründung und Suchbereich.
environment.md: Fixiert Abhängigkeiten, Hardware und Seeds.

3. Der Explorationsgraph (/trace)

Dieser Graph speichert den vollständigen gerichteten azyklischen Graphen (DAG) der Forschung als verschachtelten YAML-Baum. Er dokumentiert den verzweigten Forschungsprozess, einschließlich gescheiterter Experimente, verworfener Hypothesen und Design-Pivots. Dies bewahrt das "Negativwissen", das in narrativen Publikationen verloren ginge.

4. Die Evidenzschicht (/evidence)

Diese Schicht enthält die Rohausgaben, die jede Behauptung untermauern. Dazu gehören maschinenlesbare Metriktabellen und generierte Daten mit exakten Werten und Quellannotationen in results/ sowie Trainingskurven, Ressourcennutzung und Diagnosen in logs/. Diese Trennung ermöglicht forensische Bindungen von Behauptungen zu Beweisen und schafft eine sofort nutzbare Trainingsumgebung.

Unterstützende Mechanismen und Ökosystem

Um das ARA-Konzept in der Praxis zu etablieren, werden drei Mechanismen vorgeschlagen:

Live Research Manager (LRM): Dieses System erfasst Forschungsentscheidungen und Sackgassen als natürliche Nebenprodukte der alltäglichen Entwicklung. Es soll konforme Artefakte ohne zusätzlichen Dokumentationsaufwand für den Forscher erstellen. Der LRM arbeitet im Hintergrund und destilliert die Forschungsverläufe aus der Kommunikation zwischen Forschenden und Agenten in ein strukturiertes ARA-Artefakt.
Ara Compiler: Dieser Mechanismus übersetzt bestehende PDFs, Repositories und ergänzende Materialien in das ARA-Format, um die Abwärtskompatibilität mit dem aktuellen Publikationsökosystem zu gewährleisten. Der Compiler rekonstruiert forensisch die Querverbindungen zwischen den Schichten, die in den ursprünglichen Quellen oft nur implizit vorhanden sind.
Ara-Native Review System: Dieses System automatisiert die strukturelle Verifizierung und die budgetbewusste Reproduktion. Es soll menschliche Gutachter von mechanischen Überprüfungen entlasten, sodass sie sich auf die Bewertung von Signifikanz, Neuheit und Relevanz konzentrieren können. Das System definiert das "ARA Seal" mit drei Verifikationsstufen, die von der strukturellen Integrität bis zur empirischen Reproduzierbarkeit reichen.

Evaluierung und Ergebnisse

Das Konzept der ARA wurde in drei Bereichen evaluiert: Verstehen, Reproduktion und Erweiterung.

1. Verstehen (Knowledge Extraction)

Es wurde untersucht, wie gut ein Agent Wissen aus dem Artefakt extrahieren kann. In Tests mit 450 Fragen auf PaperBench und RE-Bench zeigte sich, dass ARA die Genauigkeit der Beantwortung von Fragen von 72,4 % auf 93,7 % steigerte. Dies wurde unter anderem dadurch erreicht, dass die geschichtete Struktur von ARA eine gezieltere Informationssuche ermöglichte und detaillierte Konfigurationen sowie Kenntnisse über Fehler, die in PDFs oft fehlen, zugänglich machte.

2. Reproduktion

Die Fähigkeit, experimentelle Ergebnisse aus einem ARA im Vergleich zu einer Kombination aus PDF und GitHub zu reproduzieren, wurde ebenfalls bewertet. Auf 15 PaperBench-Papieren mit 150 Teilaufgaben erreichte ARA eine schwierigkeitsgewichtete Erfolgsquote von 64,4 % gegenüber 57,4 % für die Baseline. Der Vorteil von ARA nahm mit steigendem Schwierigkeitsgrad der Aufgaben zu, da hier die strukturierten Informationen von ARA den größten Nutzen boten.

3. Erweiterung

Die ehrgeizigste Behauptung von ARA ist, dass die Bewahrung von Fehlertraces früherer Forschung es Agenten ermöglicht, diese effektiver zu erweitern. Analysen auf RE-Bench zeigten, dass 59,2 % der Agenten-Token und 90,2 % der Kosten für die Exploration von Sackgassen aufgewendet wurden, die im veröffentlichten Artefakt nicht dokumentiert sind. Die Bereitstellung dieser strukturierten Aufzeichnungen über bereits versuchte und verworfene Ansätze kann den Pfad zu einer ersten nützlichen Lösung verkürzen.

Fazit

Die Agent-Native Research Artifacts (ARA) stellen einen Paradigmenwechsel in der wissenschaftlichen Kommunikation dar. Sie adressieren die strukturellen Mängel des PDF-Formats, indem sie Forschungsergebnisse als maschinenlesbare, navigierbare, vollständige und verifizierbare Artefakte neu strukturieren. Dies ist eine Reaktion auf die zunehmende Rolle von KI-Agenten in der Forschung, die nicht mehr nur als Werkzeuge, sondern als autonome Beitragende agieren, die wissenschaftliche Arbeiten lesen, reproduzieren und erweitern. ARA bildet die Kernabstraktion eines Ökosystems, in dem menschliche und maschinelle Forscher gleichermaßen wissenschaftliches Wissen veröffentlichen, verifizieren und darauf aufbauen können.

Die Implementierung solcher Systeme könnte die Effizienz und Reproduzierbarkeit wissenschaftlicher Forschung signifikant steigern und die Zusammenarbeit zwischen Mensch und KI auf ein neues Niveau heben. Zukünftige Entwicklungen umfassen die Nachvollziehbarkeit von Artefakten, selbstpflegende Ökosysteme, die Schaffung wissenschaftlicher Wissensgraphen und die Verallgemeinerung des Protokolls auf andere Disziplinen.

Bibliographie

- B. Aczel, B. Szaszi, and A. O. Holcombe (2021) A billion-dollar donation: estimating the cost of researchers’ time spent on peer review. Research Integrity and Peer Review 6 (14), pp. 1–8. - Anthropic (2025a) Agent skills: a simple, open format for agent capabilities. Note: https://agentskills.io/specification. Accessed 2026-03-08. - Anthropic (2025b) Claude code sdk. Note: https://docs.anthropic.com/en/docs/claude-code/sdk. Accessed 2026-04-17. - J. Baek, S. K. Jauhar, S. Cucerzan, and S. J. Hwang (2025) ResearchAgent: iterative research idea generation over scientific literature with large language models. In Proceedings of NAACL-HLT, Note: arXiv:2404.07738. - M. Baker (2016) 1,500 scientists lift the lid on reproducibility. Nature 533 (7604), pp. 452–454. - V. Baulin, A. Cook, D. Friedman, J. Lumiruusu, A. Pashea, S. Rahman, and B. Waldeck (2025) The discovery engine: a framework for AI-driven synthesis and navigation of scientific knowledge landscapes. arXiv preprint arXiv:2505.17500. - T. Baumgärtner and I. Gurevych (2026) SciCoQA: quality assurance for scientific paper–code alignment. arXiv preprint arXiv:2601.12910. - L. Biewald (2020) Experiment tracking with Weights & Biases. Note: Software available from wandb.com. - D. A. Boiko, R. MacKnight, B. Kline, and G. Gomes (2023) Autonomous chemical research with large language models. Nature 624 (7992), pp. 570–578. - A. S. Booeshaghi, L. Luebbert, and L. Pachter (2026) Science should be machine-readable. bioRxiv. - A. Brinckman, K. Chard, N. Gaffney, M. Hategan, M. B. Jones, K. Kowalik, S. Kulasekaran, B. Ludäscher, B. D. Mecum, J. Nabrzyski, V. Stodden, I. J. Taylor, M. J. Turk, and K. Turner (2019) Computing environments for reproducibility: capturing the “Whole Tale”. Future Generation Computer Systems 94, pp. 854–867. - M. Canini (2026) Scientists should stop writing papers for each other. Note: LinkedIn Pulse. Accessed 2026-03-16. - C. D. Chambers (2013) Registered reports: a new publishing initiative at Cortex. Cortex 49 (3), pp. 609–610. - Z. Chen, S. Chen, Y. Ning, Q. Zhang, B. Wang, B. Yu, Y. Li, Z. Liao, C. Wei, Z. Lu, V. Dey, M. Xue, F. N. Baker, B. Burns, D. Adu-Ampratwum, X. Huang, X. Ning, S. Gao, Y. Su, and H. Sun (2025) ScienceAgentBench: toward rigorous assessment of language agents for data-driven scientific discovery. In International Conference on Learning Representations. - M. R. Crusoe, S. Abeln, A. Iosup, P. Amstutz, J. Chilton, N. Tijanić, H. Ménager, S. Soiland-Reyes, B. Gavrilović, and C. Goble (2022) Methods included: standardizing computational reuse and portability with the Common Workflow Language. Communications of the ACM 65 (6), pp. 54–63. - P. Di Tommaso, M. Chatzou, E. W. Floden, P. P. Barja, E. Palumbo, and C. Notredame (2017) Nextflow enables reproducible computational workflows. Nature Biotechnology 35 (4), pp. 316–319. - A. Franco, N. Malhotra, and G. Simonovits (2014) Publication bias in the social sciences: unlocking the file drawer. Science 345 (6203), pp. 1502–1505. - L. Gao, Z. Dai, P. Pasupat, A. Chen, A. T. Chaganty, Y. Fan, V. Y. Zhao, N. Lao, H. Lee, D. Juan, and K. Guu (2023) RARR: researching and revising what language models say, using language models. In Proceedings of ACL, pp. 16477–16508. - P. Gijsbers, E. LeDell, J. Thomas, S. Poirier, B. Bischl, and J. Vanschoren (2019) An open source AutoML benchmark. arXiv preprint arXiv:1907.00909. - P. Groth, A. Gibson, and J. Velterop (2010) Anatomy of a nanopublication. Information Services & Use 30 (1-2), pp. 51–56. - T. Hua, H. Hua, V. Xiang, B. Klieger, S. T. Truong, W. Liang, F. Sun, and N. Haber (2025) ResearchCodeBench: benchmarking LLMs on implementing novel machine learning research code. arXiv preprint arXiv:2506.02314. - M. Huang (2025) DecMetrics: structured claim decomposition scoring for factually consistent LLM outputs. arXiv preprint arXiv:2509.04483. - M. Y. Jaradeh, A. Oelen, K. E. Farfar, M. Prinz, J. D’Souza, G. Kismihók, M. Stocker, and S. Auer (2019) Open research knowledge graph: next generation infrastructure for semantic scholarly knowledge. In Proceedings of the 10th International Conference on Knowledge Capture (K-CAP), pp. 243–246. - C. E. Jimenez, J. Yang, A. Wettig, S. Yao, K. Pei, O. Press, and K. Narasimhan (2024) SWE-bench: can language models resolve real-world GitHub issues?. In International Conference on Learning Representations. - D. E. Knuth (1984) Literate programming. The Computer Journal 27 (2), pp. 97–111. - P. T. J. Kon, J. Liu, X. Zhu, Q. Ding, J. Peng, J. Xing, Y. Huang, Y. Qiu, J. Srinivasa, M. Lee, M. Chowdhury, M. Zaharia, and A. Chen (2025) EXP-Bench: can AI conduct AI research experiments?. arXiv preprint arXiv:2505.24785. - J. Köster and S. Rahmann (2012) Snakemake—a scalable bioinformatics workflow engine. Bioinformatics 28 (19), pp. 2520–2522. - T. S. Kuhn (1962) The structure of scientific revolutions. University of Chicago Press, Chicago. - K. Kusumegi, X. Yang, P. Ginsparg, M. de Vaan, T. Stuart, and Y. Yin (2025) Scientific production in the era of large language models. Science 390 (6779), pp. 1240–1243. - T. Lebo, S. Sahoo, D. McGuinness, K. Belhajjame, J. Cheney, D. Corsar, D. Garijo, S. Soiland-Reyes, S. Zednik, and J. Zhao (2013) PROV-O: the PROV ontology. W3C Recommendation W3C. - L. Li, R. Wang, H. Song, Y. Mao, T. Zhang, Y. Wang, J. Fan, Y. Zhang, J. Ye, C. Zhang, and Y. Gong (2026) What papers don’t tell you: recovering tacit knowledge for automated paper reproduction. arXiv preprint arXiv:2603.01801. - A. Liu (2026a) The rise of AI-native researchers. Note: https://amberliu2.substack.com/p/the-rise-of-ai-native-researchers. Blog post. Accessed 2026-03-08. - J. Liu, M. Harmon, and Z. Zhang (2026) Sci-reasoning: a dataset decoding AI innovation patterns. arXiv preprint arXiv:2601.04577. - Z. Liu (2026b) Research agents should target knowledge graphs, not papers. Note: https://kindxiaoming.github.io/blog/2026/research-agent/. Blog post. Accessed 2026-03-08. - K. Lo, L. L. Wang, M. Neumann, R. Kinney, and D. Weld (2020) S2ORC: the semantic scholar open research corpus. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 4969–4983. - C. Lu, C. Lu, R. T. Lange, J. Foerster, J. Clune, and D. Ha (2024) The AI scientist: towards fully automated open-ended scientific discovery. arXiv preprint arXiv:2408.06292. - Y. Luo, Z. Yu, X. Wang, Y. Zhu, N. Zhang, L. Wei, L. Du, D. Zheng, and H. Chen (2025) What makes AI research replicable? Executable knowledge graphs as scientific knowledge representations. arXiv preprint arXiv:2510.17795. - A. M. Bran, S. Cox, O. Schilter, C. Baldassari, A. D. White, and P. Schwaller (2024) Augmenting large language models with chemistry tools. Nature Machine Intelligence 6 (5), pp. 525–535. - N. Matosin, E. Frank, M. Engel, J. S. Lum, and K. A. Newell (2014) Negativity towards negative results: a discussion of the disconnect between scientific worth and scientific culture. Disease Models & Mechanisms 7 (2), pp. 171–173. - P. B. Medawar (1963) Is the scientific paper a fraud?. The Listener 70, pp. 377–378. Note: Reprinted in The Strange Case of the Spotted Mice, Oxford University Press, 1996. - OpenAI (2025) AGENTS.md: a standard for agent-oriented repository documentation. Note: https://github.com/openai/agents.md. Accessed 2026-03-01. - J. Pineau, P. Vincent-Lamarre, K. Sinha, V. Larivière, A. Beygelzimer, F. d’Alché-Buc, E. Fox, and H. Larochelle (2021) Improving reproducibility in machine learning research: a report from the NeurIPS 2019 reproducibility program. Journal of Machine Learning Research 22 (164), pp. 1–20. - S. Pineda Arango, H. S. Jomaa, M. Wistuba, and J. Grabocka (2021) HPO-B: a large-scale reproducible benchmark for black-box HPO based on OpenML. In Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks. - M. Polanyi (1966) The tacit dimension. Doubleday, Garden City, NY. - J. Priem, H. Piwowar, and R. Orr (2022) OpenAlex: a fully-open index of scholarly works, authors, venues, institutions, and concepts. arXiv preprint arXiv:2205.01833. - P. Radanliev, O. Santos, C. Maple, and S. Atefi (2026) Operationalising artificial intelligence bills of materials for verifiable AI provenance and lifecycle assurance. Frontiers in Computer Science 8, pp. 1735919. - R. A. Rasheed, S. Banerjee, A. Mukherjee, and R. Hazra (2026) From fluent to verifiable: claim-level auditability for deep research agents. arXiv preprint arXiv:2602.13855. - A. H. Renear and C. L. Palmer (2009) Strategic reading, ontologies, and the future of scientific publishing. Science 325 (5942), pp. 828–832. - R. Rosenthal (1979) The file drawer problem and tolerance for null results. Psychological Bulletin 86 (3), pp. 638–641. - A. Rule, A. Tabard, and J. D. Hollan (2018) Exploration and explanation in computational notebooks. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, pp. 1–12. - S. Schmidgall, Y. Su, Z. Wang, X. Sun, J. Wu, X. Yu, J. Liu, M. Moor, Z. Liu, and E. Barsoum (2025) Agent laboratory: using LLM agents as research assistants. arXiv preprint arXiv:2501.04227. - M. Seo, J. Baek, S. Lee, and S. J. Hwang (2025) Paper2Code: automating code generation from scientific papers in machine learning. arXiv preprint arXiv:2504.17192. Note: ICLR 2026. - S. Soiland-Reyes, P. Sefton, M. Crosas, L. J. Castro, F. Coppens, J. M. Fernández, D. Garijo, B. Grüning, M. La Rosa, S. Leo, et al. (2022) Packaging research artefacts with RO-Crate. Data Science 5 (2), pp. 97–138. - G. Starace, O. Jaffe, D. Sherburn, J. Aung, J. S. Chan, L. Maksin, R. Dias, E. Mays, B. Kinsella, W. Thompson, J. Heidecke, A. Glaese, and T. Patwardhan (2025) PaperBench: evaluating AI’s ability to replicate AI research. In Proceedings of the 42nd International Conference on Machine Learning, Vol. 267, pp. 56843–56873. - M. Stocker, M. Snyder, C. Anfuso, M. Ludwig, et al. (2025) Rethinking the production and publication of machine-readable expressions of research findings. Scientific Data 12 (1), pp. 1–10. - V. Stodden, M. McNutt, D. H. Bailey, E. Deelman, Y. Gil, B. Hanson, M. A. Heroux, J. P. Ioannidis, and M. Taufer (2016) Enhancing reproducibility for computational methods. Science 354 (6317), pp. 1240–1241. - A. Vasilopoulos (2026) Codified context: infrastructure for AI agents in a complex codebase. arXiv preprint arXiv:2602.20478. - D. Wadden, S. Lin, K. Lo, L. L. Wang, M. van Zuylen, A. Cohan, and H. Hajishirzi (2020) Fact or fiction: verifying scientific claims. In Proceedings of EMNLP, pp. 7534–7550. - F. Y. Wang, L. Marom, S. Pal, R. K. Luu, W. Lu, J. A. Berkovich, and M. J. Buehler (2026) Autonomous agents coordinating distributed discovery through emergent artifact exchange. arXiv preprint arXiv:2603.14312. - G. Wang, Y. Xie, Y. Jiang, A. Mandlekar, C. Xiao, Y. Zhu, L. Fan, and A. Anandkumar (2023) Voyager: an open-ended embodied agent with large language models. arXiv preprint arXiv:2305.16291. - H. Wijk, T. Lin, J. Becker, S. Jawhar, N. Parikh, T. Broadley, L. Chan, M. Chen, J. Clymer, J. Dhyani, E. Ericheva, K. Garcia, B. Goodrich, N. Jurkovic, H. Karnofsky, M. Kinniment, A. Lajko, S. Nix, L. Sato, W. Saunders, M. Taran, B. West, and E. Barnes (2025) RE-Bench: evaluating frontier AI R&D capabilities of language model agents against human experts. In Proceedings of the 42nd International Conference on Machine Learning. - M. D. Wilkinson, M. Dumontier, I. J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, J. Boiten, L. B. da Silva Santos, P. E. Bourne, et al. (2016) The FAIR guiding principles for scientific data management and stewardship. Scientific Data 3 (1), pp. 1–9. - Q. Wu, G. Bansal, J. Zhang, Y. Wu, B. Li, E. Zhu, L. Jiang, X. Zhang, S. Zhang, J. Liu, A. H. Awadallah, R. W. White, D. Burger, and C. Wang (2024) AutoGen: enabling next-gen LLM applications via multi-agent conversation. In Conference on Language Modeling (COLM), Note: arXiv:2308.08155. - Y. Yamada, R. T. Lange, C. Lu, S. Hu, C. Lu, J. Foerster, J. Clune, and D. Ha (2025) The AI scientist-v2: workshop-level automated scientific discovery via agentic tree search. arXiv preprint arXiv:2504.08066. - J. Yang, C. E. Jimenez, A. Wettig, K. Lieret, S. Yao, K. Narasimhan, and O. Press (2024) SWE-agent: agent-computer interfaces enable automated software engineering. arXiv preprint arXiv:2405.15793. - C. Ying, A. Klein, E. Real, E. Christiansen, K. Murphy, and F. Hutter (2019) NAS-Bench-101: towards reproducible neural architecture search. In Proceedings of the 36th International Conference on Machine Learning, Vol. 97, pp. 7105–7114. - M. Zaharia, A. Chen, A. Davidson, A. Ghodsi, S. A. Hong, A. Konwinski, S. Murching, T. Nykodym, P. Ogilvie, M. Parkhe, et al. (2018) MLflow: a system for managing the machine learning lifecycle. Note: Workshop on ML Systems at NeurIPS. - G. Zhang, J. Wang, J. Chen, W. Zhou, K. Wang, and S. Yan (2025) AgenTracer: who is inducing failure in the LLM agentic systems?. arXiv preprint arXiv:2509.03312. - L. Zheng, W. Chiang, Y. Sheng, S. Zhuang, Z. Wu, Y. Zhuang, Z. Lin, Z. Li, D. Li, E. P. Xing, H. Zhang, J. E. Gonzalez, and I. Stoica (2023) Judging LLM-as-a-judge with MT-Bench and chatbot arena. In Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track. - K. Zhu, Z. Liu, B. Li, M. Tian, Y. Yang, J. Zhang, P. Han, Q. Xie, F. Cui, W. Zhang, X. Ma, X. Yu, G. Ramesh, J. Wu, Z. Liu, P. Lu, J. Zou, and J. You (2025) Where LLM agents fail and how they can learn from failures. arXiv preprint arXiv:2509.25370.