KI für Ihr Unternehmen – Jetzt Demo buchen

Multi-Agenten-Framework zur automatisierten Datenextraktion in der Materialwissenschaft

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Das Forschungsteam von ComProScanner hat ein Multi-Agenten-Framework entwickelt, das die automatisierte Extraktion und Strukturierung von Materialdaten aus wissenschaftlicher Literatur ermöglicht.
    • Das System nutzt ein Fünf-Agenten-System, basierend auf CrewAI, und integriert Retrieval-Augmented Generation (RAG) mit einem PhysBERT-Einbettungsmodell sowie einem spezialisierten Tool für chemische Formeln.
    • Im Rahmen von drei Fallstudien – von einfacher Entitätserkennung bis zur komplexen Argumenten-Mining – wurden die Fähigkeiten des Systems evaluiert.
    • Das Framework zeigte bei der Extraktion von Zusammensetzungs- und Eigenschaftsdaten aus 100 wissenschaftlichen Artikeln eine Genauigkeit von 0,82, wobei DeepSeek-V3-0324 als bestes LLM identifiziert wurde.
    • Ein zentrales Element zur Reduzierung von Halluzinationen ist das "Chain-of-Verification" (CoV)-Tool, das die Robustheit der Datenextraktion signifikant verbessert.
    • Die Ergebnisse deuten darauf hin, dass spezialisierte Multi-Agenten-Systeme, die mit domain-spezifischen Tools ausgestattet sind, eine effiziente und genaue Methode zur Generierung strukturierter Datensätze für maschinelles Lernen darstellen.

    Die rapide Entwicklung im Bereich der Künstlichen Intelligenz revolutioniert zunehmend die Art und Weise, wie wissenschaftliche Erkenntnisse verarbeitet und genutzt werden. Ein aktueller Forschungsbeitrag konzentriert sich auf die Herausforderung, strukturierte Daten – insbesondere zu Materialzusammensetzungen und -eigenschaften – effizient aus der umfangreichen wissenschaftlichen Literatur zu extrahieren. Das vorgestellte Framework namens ComProScanner bietet hierfür einen vielversprechenden, Multi-Agenten-basierten Ansatz.

    Automatisierte Datenextraktion: Eine Notwendigkeit für die Materialwissenschaft

    Die Materialwissenschaft ist ein datenintensives Feld, in dem die Entdeckung und Entwicklung neuer Materialien maßgeblich von der Fähigkeit abhängt, vorhandenes Wissen zu synthetisieren. Ein Großteil dieses Wissens ist jedoch in unstrukturierter Form in wissenschaftlichen Publikationen verborgen. Traditionelle Methoden zur manuellen Datenerfassung sind zeitaufwendig, fehleranfällig und schwer skalierbar. Hier setzen KI-basierte Ansätze an, um diesen Prozess zu automatisieren.

    ComProScanner: Ein Multi-Agenten-Framework

    Das ComProScanner-Framework wurde entwickelt, um die Extraktion, Validierung, Klassifizierung und Visualisierung von maschinenlesbaren chemischen Zusammensetzungen und Eigenschaften aus wissenschaftlichen Artikeln zu erleichtern. Es handelt sich um eine autonome Multi-Agenten-Plattform, die auf einem System von fünf Agenten basiert, die mit CrewAI implementiert wurden. Diese Agenten arbeiten zusammen, um komplexe Aufgaben der Informationsgewinnung zu bewältigen.

    • Retrieval-Augmented Generation (RAG): Das System nutzt RAG, um relevante Informationen aus den Texten abzurufen und zu verarbeiten.
    • PhysBERT-Einbettungsmodell: Ein spezialisiertes Einbettungsmodell, PhysBERT, wird eingesetzt, um die semantische Bedeutung von Texten im Kontext der Materialwissenschaft zu erfassen.
    • Benutzerdefinierte Material-Parser-Tools: Für die Handhabung komplexer chemischer Formeln und die Gewährleistung der Domänenspezifität sind angepasste Tools integriert.

    Evaluierung und Leistungsanalyse

    Die Effektivität von ComProScanner wurde anhand von 100 wissenschaftlichen Artikeln evaluiert, wobei zehn verschiedene Large Language Models (LLMs) – sowohl Open-Source- als auch proprietäre Modelle – verglichen wurden. Der Fokus lag auf der Extraktion hochkomplexer Zusammensetzungen, die mit keramischen piezoelektrischen Materialien und den entsprechenden piezoelektrischen Dehnungskoeffizienten (d33) verbunden sind. Die Motivation hierfür war der Mangel an umfangreichen Datensätzen für solche Materialien.

    Die Ergebnisse zeigten, dass das Modell DeepSeek-V3-0324 mit einer Gesamtgenauigkeit von 0,82 die beste Leistung erzielte. Dies unterstreicht das Potenzial von Multi-Agenten-Systemen, in Verbindung mit spezialisierten Tools, selbst hochkomplexe experimentelle Daten aus der Literatur zu extrahieren und für maschinelles Lernen nutzbar zu machen.

    Fallstudien zur Komplexitätsanalyse

    Die Evaluierung umfasste drei Fallstudien mit unterschiedlichem Komplexitätsgrad, um die Vielseitigkeit des Systems zu demonstrieren:

    1. Einfache Entitätserkennung und Relations-Extraktion: Extraktion von Wirt- und Dotierstoffbeziehungen aus einzelnen Sätzen.
    2. Mittlere Komplexität: Identifizierung von MOF-Formeln (Metal-Organic Frameworks) und Gastspezies aus Absätzen mit mehreren Sätzen.
    3. Hohe Komplexität: Extraktion von Materialeigenschaften, wie der Wasserstabilität von MOFs, aus ganzen Forschungsarbeiten. Diese Aufgabe erforderte fortgeschrittene NLP-Funktionen wie Koreferenzauflösung und Argumenten-Mining.

    Die Rolle der "Chain-of-Verification" (CoV)

    Ein wesentliches Merkmal des ComProScanner-Frameworks ist die Integration eines "Chain-of-Verification" (CoV)-Tools. Dieses Tool dient dazu, die Robustheit der extrahierten Daten zu erhöhen und das Risiko von Halluzinationen – also der Generierung sachlich falscher Informationen durch das LLM – zu minimieren. Durch iterative Überprüfung der generierten Antworten auf logische Konsistenz und Kohärenz konnte die Genauigkeit der Datenextraktion signifikant verbessert werden. Im Fall der Extraktion der Wasserstabilität von MOFs führte der Einsatz von CoV zu einer Genauigkeit von 0,91 und einer Ausbeute von 86,20 %, was eine deutliche Steigerung gegenüber dem System ohne CoV darstellt.

    Implikationen für B2B-Anwendungen

    Für Unternehmen im B2B-Bereich, insbesondere solche, die auf die Verarbeitung großer Mengen wissenschaftlicher oder technischer Dokumente angewiesen sind, bietet ComProScanner mehrere entscheidende Vorteile:

    • Effizienzsteigerung: Die Automatisierung der Datenextraktion reduziert den manuellen Aufwand erheblich und beschleunigt die Datenerfassung.
    • Datenqualität: Durch den Einsatz von CoV und spezialisierten Tools wird die Qualität und Zuverlässigkeit der extrahierten Daten verbessert, was für datengesteuerte Entscheidungen von großer Bedeutung ist.
    • Skalierbarkeit: Das Framework ist in der Lage, große Mengen an Literatur zu verarbeiten und somit umfassende Datensätze für maschinelles Lernen oder Deep Learning zu erstellen.
    • Zugänglichkeit: Die benutzerfreundliche Gestaltung ermöglicht es auch Domänenexperten ohne tiefgehende KI-Kenntnisse, das System effektiv zu nutzen.
    • Anpassungsfähigkeit: Durch die modulare Architektur und die Möglichkeit der Benutzeranpassung kann das System an spezifische Anforderungen und Ausgabeschemata angepasst werden.

    Die Forschungsergebnisse legen nahe, dass der Einsatz von Multi-Agenten-Systemen in Kombination mit angepassten Werkzeugen einen praktikablen Weg darstellt, um die Herausforderungen der strukturierten Datenextraktion aus unstrukturierten Texten zu meistern. Dies ebnet den Weg für die Entwicklung noch leistungsfähigerer und zuverlässigerer KI-Lösungen in der Materialwissenschaft und darüber hinaus.

    Zukünftige Perspektiven

    Die kontinuierliche Verbesserung von LLMs und die Weiterentwicklung von Multi-Agenten-Architekturen versprechen weitere Fortschritte in diesem Bereich. Insbesondere die Fähigkeit von LLMs, Chain-of-Thought-Schritte zu internalisieren, könnte die Notwendigkeit expliziter Anweisungen reduzieren und die Effizienz weiter steigern. Die Reduzierung der Kosten für die Abfrage großer Datensätze und die Erweiterung der Kontextfenster von LLMs werden ebenfalls dazu beitragen, solche Systeme noch praktikabler zu machen.

    Die Entwicklung von Systemen wie ComProScanner ist ein klares Beispiel dafür, wie spezialisierte KI-Lösungen dazu beitragen können, den Zugang zu wissenschaftlichem Wissen zu demokratisieren und die Forschung in datenintensiven Disziplinen zu beschleunigen.

    Methodik des ComProScanner

    Das Framework integriert mehrere Schlüsselkomponenten und Techniken, um seine Funktionalität zu gewährleisten:

    • Dokumentsuche (Doc Search): Ein Tool zur Extraktion relevanter Informationen aus wissenschaftlichen Texten. Es verwendet Einbettungen (z.B. OpenAI's text-ada-002) zur Repräsentation von Texten als hochdimensionale Vektoren, die in einer Vektordatenbank gespeichert werden. Die Suche erfolgt mittels Maximal Marginal Relevance (MMR), um sowohl Relevanz als auch Diversität der abgerufenen Passagen zu gewährleisten.
    • Chain-of-Verification (CoV): Ein Mechanismus zur iterativen Überprüfung der Agentenantworten, um Halluzinationen zu reduzieren. Der Agent gibt eine vorläufige Antwort ab, die dann durch weitere Abfragen validiert wird, um die Konsistenz und Korrektheit sicherzustellen. Dies ermöglicht eine anpassbare, domänenspezifische Faktenprüfung.
    • Datensatzsuche: Ein Tool zur Beschaffung chemischer Strukturen von MOFs aus öffentlichen Datensätzen wie Materials Project und Crystallography Open Database (COD). Es nutzt Web-Scraping-Techniken, um kristallographische Informationsdateien (CIFs) zu extrahieren.
    • CSV Generator: Ein Tool zur Speicherung der extrahierten Daten in strukturierten Dateiformaten (CSV oder JSON).

    Evaluierungsmetriken

    Die Leistung des Agenten wurde anhand von Präzision, Recall und F1-Score bewertet, wobei eine exakte Wortübereinstimmung für die ersten beiden Fallstudien verwendet wurde. Für die Klassifizierung der Wasserstabilität von MOFs wurde eine ternäre Genauigkeit (Stabil, Instabil, Nicht angegeben) sowie eine Ausbeute (Yield) zur Messung der Informationswiederherstellung definiert.

    Die Entwicklung von ComProScanner repräsentiert einen Schritt hin zu autonomen, intelligenten Systemen, die in der Lage sind, komplexe wissenschaftliche Aufgaben zu bewältigen und somit die Innovationsgeschwindigkeit in verschiedenen Forschungsbereichen zu erhöhen.

    Literaturverzeichnis

    • Roy, A., Grisan, E., Buckeridge, J., & Gattinoni, C. (2025). ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature. arXiv preprint arXiv:2510.20362.
    • Moosavi, S. M. (2024). Agent-based learning of materials datasets from the scientific literature. Digital Discovery, 3(3), 2607-2617.
    • Dagdelen, J., Dunn, A., Lee, S., Walker, N., Rosen, A. S., Ceder, G., Persson, K. A., & Jain, A. (2024). Structured information extraction from scientific text with large language models. Nature Communications, 15(1), 1418.
    • Dhuliawala, S., Komeili, M., Xu, J., Raileanu, R., Li, X., Celikyilmaz, A., ... & Dhuliawala, S. (2023). Chain-of-verification reduces hallucination in large language models. arXiv preprint arXiv:2309.11495.
    • Burtch, N. C., Jasuja, H., & Walton, K. S. (2014). Water stability and adsorption in metal–organic frameworks. Chemical Reviews, 114(20), 10575-10612.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen