KI für Ihr Unternehmen – Jetzt Demo buchen

SELECT: Ein neuer Ansatz zur systematischen Datenpflege in der Bildklassifizierung

Kategorien:
No items found.
Freigegeben:
October 9, 2024

Artikel jetzt als Podcast anhören

Datenpflege im Fokus: SELECT – Ein Benchmark für Bildklassifizierungsstrategien

In der sich rasant entwickelnden Welt der Künstlichen Intelligenz (KI) spielt die Qualität der Trainingsdaten eine entscheidende Rolle. Insbesondere im Bereich des maschinellen Lernens ist die Auswahl und Aufbereitung der Daten für die Leistungsfähigkeit der Modelle von immenser Bedeutung. Ein vielversprechender Ansatz zur Optimierung dieses Prozesses ist die gezielte Datenpflege, auch bekannt als Data Curation. Doch fehlte es bisher an einer Möglichkeit, verschiedene Strategien der Datenpflege systematisch zu vergleichen und zu bewerten. Genau hier setzt SELECT an, ein neuer Benchmark, der die Evaluierung und den Vergleich verschiedener Datenpflegestrategien für die Bildklassifizierung ermöglicht.

SELECT und ImageNet++: Ein neuer Maßstab für Datenpflege

Entwickelt von einem Forscherteam unter der Leitung von Benjamin Feuer, stellt SELECT den ersten groß angelegten Benchmark dar, der sich der Datenpflege im Kontext der Bildklassifizierung widmet. Um SELECT mit Leben zu füllen und aussagekräftige Vergleiche zu ermöglichen, wurde ein neuer Datensatz ins Leben gerufen: ImageNet++. Dieser Datensatz basiert auf ImageNet-1K, einem der bekanntesten Datensätze für die Bildklassifizierung, und erweitert ihn um fünf neue Trainingsdatensätze, die jeweils die gleiche Größe wie ImageNet-1K selbst aufweisen. Jeder dieser neuen Datensätze wurde mithilfe einer anderen Datenpflegestrategie zusammengestellt, um die Bandbreite der Möglichkeiten abzubilden. So umfasst ImageNet++ Datensätze, die aus Open Images, einem riesigen Bilddatensatz von Google, mithilfe von CLIP-Embeddings, einer Methode zur Kombination von Bild- und Textinformationen, oder durch die Generierung synthetischer Daten entstanden sind.

Bewertung der Datenpflegestrategien: Von der Genauigkeit bis zum Transferlernen

Die Bewertung der Datenpflegestrategien erfolgt in SELECT auf zwei Arten. Zum einen werden mit jedem Trainingsdatensatz identische Modelle für die Bildklassifizierung von Grund auf trainiert. Zum anderen werden die Daten selbst verwendet, um eine vortrainierte selbstüberwachte Repräsentation anzupassen. Die Ergebnisse zeigen interessante Trends, insbesondere im Hinblick auf neuere Methoden der Datenpflege wie die Generierung synthetischer Daten und die Suche auf Basis von CLIP-Embeddings. Obwohl diese Strategien für bestimmte Aufgaben sehr konkurrenzfähig sind, zeigt sich, dass die für die Zusammenstellung des ursprünglichen ImageNet-1K-Datensatzes verwendete Strategie nach wie vor der Goldstandard ist. SELECT ist jedoch nicht nur auf die Bewertung der Genauigkeit von Modellen beschränkt. Der Benchmark umfasst auch die Evaluierung von Datensätzen in Bezug auf ihre Nützlichkeit für das Transferlernen, also die Fähigkeit eines Modells, auf neuen, ähnlichen Aufgaben zu lernen.

Fazit: SELECT als Wegbereiter für effizientere KI-Modelle

Mit der Einführung von SELECT und ImageNet++ wurde ein wichtiger Schritt in Richtung einer systematischen und vergleichenden Analyse von Datenpflegestrategien gemacht. Die Ergebnisse des Benchmarks unterstreichen die Bedeutung der Datenpflege für die Leistungsfähigkeit von KI-Modellen und zeigen gleichzeitig, dass die Wahl der optimalen Strategie von der jeweiligen Aufgabe abhängt. SELECT liefert wertvolle Erkenntnisse für die Entwicklung robusterer und effizienterer KI-Modelle und ebnet den Weg für neue Methoden und Ansätze in der Datenpflege. Durch die Bereitstellung von Code, Dokumentation und dem Datensatz selbst, ermöglicht es SELECT der Forschungsgemeinschaft, auf den Ergebnissen aufzusetzen und die Entwicklung neuer, innovativer Datenpflegestrategien voranzutreiben.

Bibliographie

Huang, B., Yu, Y., Huang, J., Zhang, X., & Ma, J. (2024). DCA-Bench: A Benchmark for Dataset Curation Agents. *arXiv preprint arXiv:2406.07275*. Feuer, B., Xu, J., Cohen, N., Yubeaton, P., Mittal, G., & Hegde, C. (2024). SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification. *arXiv preprint arXiv:2410.05057*. Ramanujan, V., Zhang, H., Yang, Y., Farhadi, A., Toshev, A. T., Schmidt, L., ... (2023). Data Curation for Large Scale Detection Pretraining. *OpenReview*. Gupta, D. K., Bamba, U., Thakur, A., Gupta, A., Agarwal, R., Sharan, S., ... (2024). An UltraMNIST classification benchmark to train CNNs for very large images. *Scientific Data*, *11*(1), 771. Sahota, H. (2024, April 30). CVPR 2024 Datasets and Benchmarks - Part 2: Benchmarks. *Voxel51 Blog*. Retrieved from https://voxel51.com/blog/cvpr-2024-datasets-and-benchmarks-part-2-benchmarks/ Xu, J. (2024). *SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Recognition*. [GitHub repository]. Retrieved from https://github.com/jimmyxu123/select.
Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen