MINT 1T Ein neues Zeitalter für multimodale KI Forschung durch umfangreiches Datenset

Kategorien:

No items found.

Freigegeben:

July 29, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

MINT-1T: Das bahnbrechende Multimodale Datenset von Salesforce und der Universität von Washington

In der Welt der Künstlichen Intelligenz (KI) sorgen neue Entwicklungen stets für Aufsehen. Eine der jüngsten und aufregendsten Ankündigungen ist die Veröffentlichung des MINT-1T-Datasets. Mit einer beeindruckenden Menge von einer Billion Texttokens und 3,4 Milliarden Bildern stellt MINT-1T ein enormes Potenzial für die Forschung und Entwicklung im Bereich der multimodalen KI dar. Entwickelt von einem Team der Universität von Washington in Zusammenarbeit mit Salesforce Research und anderen renommierten Institutionen, könnte dieses Datenset die Art und Weise, wie KI-Modelle trainiert und eingesetzt werden, revolutionieren.

Hintergrund und Motivation

Multimodale Datensätze, die sowohl Text als auch Bilder enthalten, sind entscheidend für das Training fortschrittlicher multimodaler Modelle. Diese Modelle können Informationen aus verschiedenen Modalitäten kombinieren und so komplexere Aufgaben lösen. Trotz des raschen Fortschritts bei den Open-Source-LMMs (Large Multimodal Models) gab es bisher einen Mangel an groß angelegten, vielfältigen Open-Source-Datensätzen. Hier setzt MINT-1T an, indem es diese Lücke schließt.

Zusammensetzung und Umfang

MINT-1T ist der bislang größte und vielfältigste Open-Source-Datensatz seiner Art. Er umfasst:

- Eine Billion Texttokens - 3,4 Milliarden Bilder - 1056,8 Millionen Dokumente

Die Daten stammen aus verschiedenen Quellen, darunter HTML-Dokumente, PDF-Dokumente und ArXiv-Papiere. HTML-Dokumente wurden aus CommonCrawl WARC-Dateien extrahiert, während PDF-Dokumente aus CommonCrawl WAT-Dateien und ArXiv-Papiere direkt aus ArXiv S3-Buckets bezogen wurden.

Datenerhebung und Verarbeitung

Die Erhebung und Verarbeitung der Daten umfasste mehrere Schritte:

Dokumentextraktion:

- HTML-Dokumente wurden aus CommonCrawl WARC-Dateien geparst. - PDF-Dokumente wurden aus CommonCrawl WAT-Dateien extrahiert. - ArXiv-Papiere wurden direkt aus ArXiv S3-Buckets bezogen.

Filterungsprozess:

- Anwendung von Textqualitätsfiltern zur Sicherstellung der Inhaltsrelevanz und Lesbarkeit. - Entfernung von Duplikaten auf Absatz- und Dokumentebene. - Filterung unerwünschter Inhalte basierend auf vordefinierten Kriterien. - Verifizierung der Bildverfügbarkeit und -qualität für HTML-Dokumente. - Begrenzung der PDF-Größe auf 50 MB und 50 Seiten zur Verwaltung der Datensatzgröße und -qualität.

Bildverarbeitung:

- Einsatz einer NSFW-Bilderkennung zur Entfernung pornografischer oder anderweitig unerwünschter Bilder. - Entfernung von Bildern, die kleiner als 150 Pixel oder größer als 20.000 Pixel sind. - Anpassung der Seitenverhältnisse für HTML (2:1) und PDF (3:1) zur Erhaltung wissenschaftlicher Abbildungen.

Textverarbeitung:

- Verwendung von fasttext zur Sprachidentifikation mit Fokus auf englische Inhalte. - Maskierung persönlich identifizierbarer Informationen wie E-Mail-Adressen und IP-Adressen. - Anwendung von Absatz- und Dokumentebene-Deduplizierung mittels Bloom-Filtern.

PDF-spezifische Verarbeitung:

- Verwendung von PyMuPDF zum Parsen von PDFs und Extrahieren der Lesereihenfolge. - Clusterbildung von Textblöcken basierend auf Spalten und Anordnung von oben links nach unten rechts.

ArXiv-spezifische Verarbeitung:

- Verwendung von TexSoup zum Parsen von LaTeX-Quellcode und Interleaving von Bildern mit Text. - Bereinigung des LaTeX-Codes durch Entfernen von Imports, Bibliographie, Tabellen und Zitations-Tags.

Verschiedene Open-Source-Tools wie fasttext, PyMuPDF und DCLM wurden in diesem Prozess eingesetzt, um die Datenqualität zu optimieren.

Persönliche und sensible Informationen

Trotz der Nutzung öffentlicher Webdaten wurden erhebliche Anstrengungen unternommen, um die Aufnahme persönlicher und sensibler Informationen zu minimieren:

- Maskierung von E-Mail-Adressen und IP-Adressen zum Schutz der Privatsphäre. - Einsatz eines NSFW-Bildklassifikators zur Entfernung unangemessener visueller Inhalte. - Filterung von URLs, die Substrings enthalten, die mit unerwünschten oder sensiblen Inhalten verbunden sind.

Nutzer sollten sich jedoch bewusst sein, dass die Daten aus dem öffentlichen Web stammen und möglicherweise dennoch einige sensible oder persönliche Informationen enthalten. Die Ersteller des Datensatzes erkennen diese Einschränkung an und raten den Nutzern, Vorsicht walten zu lassen und gegebenenfalls zusätzliche Filter basierend auf ihren spezifischen Anwendungsfällen anzuwenden.

Vorurteile, Risiken und Einschränkungen

Es wurden mehrere potenzielle Vorurteile, Risiken und Einschränkungen identifiziert:

- Datenverzerrung: Da der Datensatz aus Web-Crawls stammt, kann er Verzerrungen enthalten, die in Online-Inhalten vorhanden sind. - Inhaltsrisiken: Trotz umfangreicher Filterung besteht die Möglichkeit, dass einige anstößige, unsensible oder unangemessene Inhalte im Datensatz verbleiben. - Bildverfügbarkeit: Der Datensatz stützt sich auf externe Bild-URLs, die im Laufe der Zeit aufgrund von Linkverfall möglicherweise nicht mehr verfügbar sind und die langfristige Nutzbarkeit des Datensatzes beeinträchtigen könnten. - Einschränkungen beim PDF-Parsen: Die derzeitige Methode zur Extraktion der Lesereihenfolge aus PDFs erfasst möglicherweise nicht immer den beabsichtigten Fluss, insbesondere bei Dokumenten mit komplexen Layouts. - Potenzielle rechtliche und ethische Bedenken: Obwohl Anstrengungen unternommen wurden, um robots.txt-Dateien zu respektieren und sensible Informationen zu entfernen, können dennoch Inhalte vorhanden sein, die Einzelpersonen nicht ausdrücklich zur Aufnahme zugestimmt haben.

Empfehlungen

Angesichts dieser Überlegungen werden folgende Empfehlungen gegeben:

- Zusätzliche Filterung: Nutzer werden nachdrücklich ermutigt, basierend auf ihrem spezifischen Anwendungsfall und ethischen Überlegungen zusätzliche Filter anzuwenden. - Ungeeignete Anwendungsfälle: Der Datensatz wird nicht für Anwendungen empfohlen, die die Verarbeitung oder Generierung persönlich identifizierbarer Informationen umfassen, noch für militärische Anwendungen. - Rechtliche Einhaltung: Nutzer sollten die Einhaltung geltender Gesetze unabhängig überprüfen, bevor sie MINT-1T für kommerzielle Zwecke verwenden. - Bewusstsein für Vorurteile: Forscher und Entwickler sollten sich der potenziellen Verzerrungen im Datensatz bewusst sein und deren Auswirkungen auf das Modelltraining und die Ergebnisse berücksichtigen.

Zukunftsaussichten

Die Veröffentlichung von MINT-1T markiert einen bedeutenden Fortschritt in der Forschung und Entwicklung multimodaler KI-Modelle. Die Entwickler des Datensatzes sind bereits dabei, neue Iterationen von XGen-MM-Modellen auf Basis von MINT-1T zu trainieren und freuen sich darauf, weiterhin einige der besten Open-Source-Datensätze und -Modelle mit der Community zu teilen.

Salesforce AI lädt alle Interessierten ein, tiefer in die Konzepte einzutauchen, die in diesem Blogpost diskutiert wurden. Weitere Informationen finden Sie auf der Salesforce AI Research Website und den sozialen Medien.

Fazit

Die Einführung von MINT-1T könnte die Landschaft der multimodalen KI-Forschung erheblich verändern. Mit seiner enormen Größe und Vielfalt bietet dieser Datensatz eine wertvolle Ressource für die Forschungsgemeinschaft und könnte die Entwicklung leistungsfähigerer und vielseitigerer KI-Modelle vorantreiben. Es bleibt abzuwarten, welche neuen Möglichkeiten und Anwendungen durch die Nutzung dieses bahnbrechenden Datensatzes entstehen werden.

Bibliographie

- https://huggingface.co/datasets/mlfoundations/MINT-1T-HTML - https://twitter.com/silviocinguetta/status/1816980351618809874 - https://huggingface.co/posts/Taylor658/730848617257487 - https://blog.salesforceairesearch.com/mint-1t/ - https://twitter.com/silviocinguetta/status/1816240453228060972 - https://huggingface.co/papers/2406.11271 - https://x.com/SFResearch/status/1806447040362422284 - https://huggingface.co/datasets/mlfoundations/MINT-1T-PDF-CC-2024-10