SELECT: Ein neuer Ansatz zur systematischen Datenpflege in der Bildklassifizierung

Kategorien:

No items found.

Freigegeben:

October 9, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Datenpflege im Fokus: SELECT – Ein Benchmark für Bildklassifizierungsstrategien

In der sich rasant entwickelnden Welt der Künstlichen Intelligenz (KI) spielt die Qualität der Trainingsdaten eine entscheidende Rolle. Insbesondere im Bereich des maschinellen Lernens ist die Auswahl und Aufbereitung der Daten für die Leistungsfähigkeit der Modelle von immenser Bedeutung. Ein vielversprechender Ansatz zur Optimierung dieses Prozesses ist die gezielte Datenpflege, auch bekannt als Data Curation. Doch fehlte es bisher an einer Möglichkeit, verschiedene Strategien der Datenpflege systematisch zu vergleichen und zu bewerten. Genau hier setzt SELECT an, ein neuer Benchmark, der die Evaluierung und den Vergleich verschiedener Datenpflegestrategien für die Bildklassifizierung ermöglicht.

SELECT und ImageNet++: Ein neuer Maßstab für Datenpflege

Entwickelt von einem Forscherteam unter der Leitung von Benjamin Feuer, stellt SELECT den ersten groß angelegten Benchmark dar, der sich der Datenpflege im Kontext der Bildklassifizierung widmet. Um SELECT mit Leben zu füllen und aussagekräftige Vergleiche zu ermöglichen, wurde ein neuer Datensatz ins Leben gerufen: ImageNet++. Dieser Datensatz basiert auf ImageNet-1K, einem der bekanntesten Datensätze für die Bildklassifizierung, und erweitert ihn um fünf neue Trainingsdatensätze, die jeweils die gleiche Größe wie ImageNet-1K selbst aufweisen. Jeder dieser neuen Datensätze wurde mithilfe einer anderen Datenpflegestrategie zusammengestellt, um die Bandbreite der Möglichkeiten abzubilden. So umfasst ImageNet++ Datensätze, die aus Open Images, einem riesigen Bilddatensatz von Google, mithilfe von CLIP-Embeddings, einer Methode zur Kombination von Bild- und Textinformationen, oder durch die Generierung synthetischer Daten entstanden sind.

Bewertung der Datenpflegestrategien: Von der Genauigkeit bis zum Transferlernen

Die Bewertung der Datenpflegestrategien erfolgt in SELECT auf zwei Arten. Zum einen werden mit jedem Trainingsdatensatz identische Modelle für die Bildklassifizierung von Grund auf trainiert. Zum anderen werden die Daten selbst verwendet, um eine vortrainierte selbstüberwachte Repräsentation anzupassen. Die Ergebnisse zeigen interessante Trends, insbesondere im Hinblick auf neuere Methoden der Datenpflege wie die Generierung synthetischer Daten und die Suche auf Basis von CLIP-Embeddings. Obwohl diese Strategien für bestimmte Aufgaben sehr konkurrenzfähig sind, zeigt sich, dass die für die Zusammenstellung des ursprünglichen ImageNet-1K-Datensatzes verwendete Strategie nach wie vor der Goldstandard ist. SELECT ist jedoch nicht nur auf die Bewertung der Genauigkeit von Modellen beschränkt. Der Benchmark umfasst auch die Evaluierung von Datensätzen in Bezug auf ihre Nützlichkeit für das Transferlernen, also die Fähigkeit eines Modells, auf neuen, ähnlichen Aufgaben zu lernen.

Fazit: SELECT als Wegbereiter für effizientere KI-Modelle

Mit der Einführung von SELECT und ImageNet++ wurde ein wichtiger Schritt in Richtung einer systematischen und vergleichenden Analyse von Datenpflegestrategien gemacht. Die Ergebnisse des Benchmarks unterstreichen die Bedeutung der Datenpflege für die Leistungsfähigkeit von KI-Modellen und zeigen gleichzeitig, dass die Wahl der optimalen Strategie von der jeweiligen Aufgabe abhängt. SELECT liefert wertvolle Erkenntnisse für die Entwicklung robusterer und effizienterer KI-Modelle und ebnet den Weg für neue Methoden und Ansätze in der Datenpflege. Durch die Bereitstellung von Code, Dokumentation und dem Datensatz selbst, ermöglicht es SELECT der Forschungsgemeinschaft, auf den Ergebnissen aufzusetzen und die Entwicklung neuer, innovativer Datenpflegestrategien voranzutreiben.

Bibliographie

Huang, B., Yu, Y., Huang, J., Zhang, X., & Ma, J. (2024). DCA-Bench: A Benchmark for Dataset Curation Agents. *arXiv preprint arXiv:2406.07275*. Feuer, B., Xu, J., Cohen, N., Yubeaton, P., Mittal, G., & Hegde, C. (2024). SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification. *arXiv preprint arXiv:2410.05057*. Ramanujan, V., Zhang, H., Yang, Y., Farhadi, A., Toshev, A. T., Schmidt, L., ... (2023). Data Curation for Large Scale Detection Pretraining. *OpenReview*. Gupta, D. K., Bamba, U., Thakur, A., Gupta, A., Agarwal, R., Sharan, S., ... (2024). An UltraMNIST classification benchmark to train CNNs for very large images. *Scientific Data*, *11*(1), 771. Sahota, H. (2024, April 30). CVPR 2024 Datasets and Benchmarks - Part 2: Benchmarks. *Voxel51 Blog*. Retrieved from https://voxel51.com/blog/cvpr-2024-datasets-and-benchmarks-part-2-benchmarks/ Xu, J. (2024). *SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Recognition*. [GitHub repository]. Retrieved from https://github.com/jimmyxu123/select.