Hugging Face präsentiert Storage Buckets für optimiertes ML-Datenmanagement

Kategorien:

No items found.

Freigegeben:

March 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Hugging Face hat kürzlich "Storage Buckets" eingeführt, eine neue Art von Objektspeicher, der speziell für die Anforderungen von ML-Workflows entwickelt wurde.
Im Gegensatz zu traditionellen Git-basierten Repositories sind Buckets veränderlich, nicht versioniert und für hohe Schreibdurchsätze optimiert, ideal für Trainings-Checkpoints, Logs und Zwischenartefakte.
Die Technologie basiert auf Xet, einem Deduplizierungs-Engine, der Dateien in inhaltsdefinierte Chunks zerlegt. Dies reduziert den Speicherbedarf und die Übertragungszeiten erheblich, da nur geänderte Datenfragmente gespeichert werden.
Preislich positionieren sich die Storage Buckets mit Startpreisen ab 8 USD pro TB/Monat bei größeren Volumina als kostengünstige Alternative zu Cloud-Speicheranbietern wie AWS S3.
Die Integration erfolgt über eine Befehlszeilenschnittstelle (CLI), ein Python SDK, JavaScript und fsspec, was eine flexible Nutzung in verschiedenen ML-Umgebungen ermöglicht.
Ein integriertes Content Delivery Network (CDN) und Pre-Warming-Fähigkeiten in verschiedenen Cloud-Regionen sollen schnelle Datenzugriffe und geringe Latenzen gewährleisten.

Hugging Face, eine zentrale Plattform in der Welt des maschinellen Lernens und der künstlichen Intelligenz, hat mit der Einführung von „Storage Buckets“ eine bedeutende Neuerung präsentiert. Diese stellen den ersten neuen Repository-Typ auf dem Hub seit vier Jahren dar und sind darauf ausgelegt, die spezifischen Herausforderungen im Umgang mit großen und sich ständig ändernden Datenmengen in ML-Workflows zu adressieren. Diese Entwicklung könnte weitreichende Auswirkungen auf die Effizienz und Kostenstruktur im Bereich des Machine Learning haben.

Die Herausforderung im ML-Datenmanagement

Traditionelle Versionskontrollsysteme wie Git sind hervorragend geeignet, um Quellcode und kleinere, versionierte Artefakte zu verwalten. Im Kontext des maschinellen Lernens stoßen sie jedoch schnell an ihre Grenzen. ML-Workflows generieren kontinuierlich große Mengen an Daten, darunter:

Trainings-Checkpoints
Optimierer-Zustände
Verarbeitete Datensatz-Shards
Agenten-Traces
Logs
Intermediäre Pipeline-Ausgaben

Diese Daten sind oft hochfrequenten Schreibvorgängen ausgesetzt und benötigen keine vollständige Versionshistorie wie Quellcode. Git-basierte Repositories leiden unter der Handhabung großer Binärdateien und häufigen Überschreibungen, was zu ineffizienten Speicherkosten und langen Übertragungszeiten führen kann. Das Klonen eines Git-Repositories, das massive Binärdateien enthält, würde zudem die gesamte Historie herunterladen, was oft unnötig und zeitaufwendig ist.

Hugging Face Storage Buckets: Eine maßgeschneiderte Lösung

Die neu eingeführten Storage Buckets von Hugging Face bieten eine Alternative, die speziell auf die Anforderungen von ML-Artefakten zugeschnitten ist. Sie sind als veränderliche, nicht versionierte Objektspeichercontainer konzipiert, die hohe Schreibdurchsätze ermöglichen.

Kernmerkmale und Vorteile

Die primären Merkmale der Storage Buckets umfassen:

Mutabilität und Nicht-Versionierung: Im Gegensatz zu Git-Repositories, die eine vollständige Historie jeder Änderung pflegen, ermöglichen Buckets das freie Schreiben, Überschreiben und Löschen von Objekten. Dies reduziert den Overhead erheblich, da keine Commits, Diffs oder aufwendige Historienverwaltung erforderlich sind.
Optimiert für ML-Workflows: Die Struktur der Buckets ist darauf ausgelegt, die während des Trainings und der Entwicklung von ML-Modellen anfallenden transienten Daten effizient zu speichern.
Nahtlose Integration: Die Buckets sind tief in das Hugging Face Ökosystem integriert und über eine CLI (hf buckets), ein Python SDK (huggingface_hub v1.5.0+) und JavaScript zugänglich. Die fsspec-Integration ermöglicht es zudem Bibliotheken wie Pandas, Polars und Dask, direkt auf die Buckets zuzugreifen.

Die Xet-Deduplizierungstechnologie

Ein zentrales Element der Storage Buckets ist die zugrunde liegende Xet-Technologie. Xet ist ein inhaltsbasierter Deduplizierungs-Engine, der von Hugging Face entwickelt wurde, um die Speicherung großer Dateien zu optimieren.

Funktionsweise der Deduplizierung

Xet bricht Dateien in inhaltsdefinierte Chunks auf. Diese Chunks werden bei der Speicherung dedupliziert, was bedeutet, dass identische Datenblöcke nur einmal physisch gespeichert werden. Dies ist besonders vorteilhaft für ML-Workflows, da aufeinanderfolgende Trainings-Checkpoints oft einen Großteil ihrer Bytes gemeinsam haben. Wenn beispielsweise nur ein kleiner Prozentsatz eines Modells während eines erneuten Trainings geändert wird, müssen dank Xet nur die tatsächlich neuen oder geänderten Chunks hochgeladen und gespeichert werden.

Die Architektur von Xet bietet folgende Vorteile:

Effiziente Speichernutzung: Bei Workloads mit hoher Datenüberlappung, wie sie in der Modellentwicklung typisch sind, kann der effektive Speicherbedarf drastisch reduziert werden. Wenn ein 1 TB großer Datensatz zu einem 1,2 TB großen Output mit 80 % Überlappung verarbeitet wird, müssten nur etwa 400 GB zusätzlicher Speicherplatz bezahlt werden.
Schnellere Übertragungen: Da bei Synchronisationsvorgängen bereits vorhandene Bytes übersprungen werden, verkürzen sich die Upload- und Download-Zeiten.
Kostenersparnis: Die Abrechnung erfolgt auf Basis des deduplizierten Speichers, nicht der rohen Bytes, was insbesondere für Unternehmenskunden zu erheblichen Kostenvorteilen führen kann.

Wirtschaftliche Aspekte und Preisgestaltung

Hugging Face positioniert seine Storage Buckets als eine kostengünstige Alternative zu bestehenden Cloud-Speicherlösungen. Die Preisgestaltung ist gestaffelt und volumenbasiert:

Basispreis: 12 USD pro TB/Monat für öffentliche Repositories, 18 USD pro TB/Monat für private Repositories.
Volumenrabatte: Bei Volumina von 500 TB oder mehr sinkt der Preis auf 8 USD pro TB/Monat für öffentliche und 12 USD pro TB/Monat für private Repositories.

Diese Preise sind, insbesondere in den höheren Volumenstufen, wettbewerbsfähig und unterbieten laut Hugging Face die Standardpreise von Anbietern wie AWS S3 um das Dreifache. Die Xet-Deduplizierung kann die effektiven Kosten für Workloads mit hoher Datenüberlappung zusätzlich senken.

Integration und Nutzung

Die Interaktion mit den Storage Buckets ist vielseitig gestaltet:

CLI-Werkzeuge: Befehle wie hf buckets create, hf buckets sync und hf buckets rm ermöglichen eine einfache Verwaltung und Synchronisation von Daten.
Python SDK: Entwickler können über die huggingface_hub-Bibliothek Buckets programmatisch erstellen, synchronisieren und deren Inhalte auflisten.
fsspec-Unterstützung: Diese Integration erlaubt es gängigen Datenanalyse-Bibliotheken, direkt mit den Buckets zu interagieren, als wären es lokale Dateisysteme.

Ein weiteres wichtiges Merkmal ist die Pre-Warming-Funktion, die es ermöglicht, häufig genutzte Daten vorab in spezifischen Cloud-Regionen zu cachen. Dies ist besonders relevant für verteilte Trainingspipelines, um Latenzzeiten bei regionsübergreifenden Datenübertragungen zu minimieren. Zum Start werden AWS und GCP unterstützt, weitere Regionen sind geplant.

Zukünftige Entwicklungen

Hugging Face plant, die direkte Übertragung von Daten aus Buckets in versionierte Repositories zu ermöglichen. Das angestrebte Workflow-Modell sieht vor:

Training in einem Bucket.
Promotion des finalen Checkpoints in ein Modell-Repository.
Committen verarbeiteter Shards in ein Datensatz-Repository.

Diese Trennung von Arbeits- und Veröffentlichungs-Speicher, die dennoch miteinander verbunden sind, soll die Effizienz weiter steigern. Die Funktion wurde bereits von Unternehmen wie Jasper, Arcee, IBM und PixAI vor der Veröffentlichung getestet.

Fazit

Die Einführung der Storage Buckets durch Hugging Face stellt einen strategischen Schritt dar, um den wachsenden Anforderungen an das Datenmanagement in der KI-Entwicklung gerecht zu werden. Durch die Kombination aus nicht-versioniertem, mutablem Objektspeicher, der innovativen Xet-Deduplizierungstechnologie und einer wettbewerbsfähigen Preisgestaltung bietet Hugging Face eine Lösung, die das Potenzial hat, die Art und Weise, wie ML-Teams mit ihren Artefakten umgehen, grundlegend zu verändern. Die Fokussierung auf Effizienz, Kostenreduktion und nahtlose Integration in bestehende ML-Workflows könnte die Plattform weiter als zentralen Partner in der KI-Entwicklung etablieren.

Bibliography: - Hugging Face. (n.d.). Buckets. Abgerufen von https://huggingface.co/docs/huggingface_hub/guides/buckets - Hugging Face. (n.d.). Deduplication. Abgerufen von https://huggingface.co/docs/hub/xet/deduplication - Hugging Face. (n.d.). Storage. Abgerufen von https://huggingface.co/storage - Hugging Face. (n.d.). Xet: our Storage Backend. Abgerufen von https://huggingface.co/docs/hub/storage-backends - Lhoest, Q. (2026, 13. Februar). Basic Bucket API support in HfFileSystem. Pull Request #3807, huggingface/huggingface_hub. Abgerufen von https://github.com/huggingface/huggingface_hub/pull/3807 - Lhoest, Q. (n.d.). #storage #dedupe #huggingface #xet #datasets #ai #buckets - LinkedIn. Abgerufen von https://www.linkedin.com/posts/quentin-lhoest_storage-dedupe-huggingface-activity-7437186341576007680-M2-8 - Zhang, S. (n.d.). Hugging Face Launches Storage Buckets for ML Artifacts. Awesome Agents. Abgerufen von https://awesomeagents.ai/news/huggingface-storage-buckets-mutable-object-storage/