Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Hugging Face, eine zentrale Plattform in der Welt des maschinellen Lernens und der künstlichen Intelligenz, hat mit der Einführung von „Storage Buckets“ eine bedeutende Neuerung präsentiert. Diese stellen den ersten neuen Repository-Typ auf dem Hub seit vier Jahren dar und sind darauf ausgelegt, die spezifischen Herausforderungen im Umgang mit großen und sich ständig ändernden Datenmengen in ML-Workflows zu adressieren. Diese Entwicklung könnte weitreichende Auswirkungen auf die Effizienz und Kostenstruktur im Bereich des Machine Learning haben.
Traditionelle Versionskontrollsysteme wie Git sind hervorragend geeignet, um Quellcode und kleinere, versionierte Artefakte zu verwalten. Im Kontext des maschinellen Lernens stoßen sie jedoch schnell an ihre Grenzen. ML-Workflows generieren kontinuierlich große Mengen an Daten, darunter:
Diese Daten sind oft hochfrequenten Schreibvorgängen ausgesetzt und benötigen keine vollständige Versionshistorie wie Quellcode. Git-basierte Repositories leiden unter der Handhabung großer Binärdateien und häufigen Überschreibungen, was zu ineffizienten Speicherkosten und langen Übertragungszeiten führen kann. Das Klonen eines Git-Repositories, das massive Binärdateien enthält, würde zudem die gesamte Historie herunterladen, was oft unnötig und zeitaufwendig ist.
Die neu eingeführten Storage Buckets von Hugging Face bieten eine Alternative, die speziell auf die Anforderungen von ML-Artefakten zugeschnitten ist. Sie sind als veränderliche, nicht versionierte Objektspeichercontainer konzipiert, die hohe Schreibdurchsätze ermöglichen.
Die primären Merkmale der Storage Buckets umfassen:
hf buckets), ein Python SDK (huggingface_hub v1.5.0+) und JavaScript zugänglich. Die fsspec-Integration ermöglicht es zudem Bibliotheken wie Pandas, Polars und Dask, direkt auf die Buckets zuzugreifen.Ein zentrales Element der Storage Buckets ist die zugrunde liegende Xet-Technologie. Xet ist ein inhaltsbasierter Deduplizierungs-Engine, der von Hugging Face entwickelt wurde, um die Speicherung großer Dateien zu optimieren.
Xet bricht Dateien in inhaltsdefinierte Chunks auf. Diese Chunks werden bei der Speicherung dedupliziert, was bedeutet, dass identische Datenblöcke nur einmal physisch gespeichert werden. Dies ist besonders vorteilhaft für ML-Workflows, da aufeinanderfolgende Trainings-Checkpoints oft einen Großteil ihrer Bytes gemeinsam haben. Wenn beispielsweise nur ein kleiner Prozentsatz eines Modells während eines erneuten Trainings geändert wird, müssen dank Xet nur die tatsächlich neuen oder geänderten Chunks hochgeladen und gespeichert werden.
Die Architektur von Xet bietet folgende Vorteile:
Hugging Face positioniert seine Storage Buckets als eine kostengünstige Alternative zu bestehenden Cloud-Speicherlösungen. Die Preisgestaltung ist gestaffelt und volumenbasiert:
Diese Preise sind, insbesondere in den höheren Volumenstufen, wettbewerbsfähig und unterbieten laut Hugging Face die Standardpreise von Anbietern wie AWS S3 um das Dreifache. Die Xet-Deduplizierung kann die effektiven Kosten für Workloads mit hoher Datenüberlappung zusätzlich senken.
Die Interaktion mit den Storage Buckets ist vielseitig gestaltet:
hf buckets create, hf buckets sync und hf buckets rm ermöglichen eine einfache Verwaltung und Synchronisation von Daten.huggingface_hub-Bibliothek Buckets programmatisch erstellen, synchronisieren und deren Inhalte auflisten.Ein weiteres wichtiges Merkmal ist die Pre-Warming-Funktion, die es ermöglicht, häufig genutzte Daten vorab in spezifischen Cloud-Regionen zu cachen. Dies ist besonders relevant für verteilte Trainingspipelines, um Latenzzeiten bei regionsübergreifenden Datenübertragungen zu minimieren. Zum Start werden AWS und GCP unterstützt, weitere Regionen sind geplant.
Hugging Face plant, die direkte Übertragung von Daten aus Buckets in versionierte Repositories zu ermöglichen. Das angestrebte Workflow-Modell sieht vor:
Diese Trennung von Arbeits- und Veröffentlichungs-Speicher, die dennoch miteinander verbunden sind, soll die Effizienz weiter steigern. Die Funktion wurde bereits von Unternehmen wie Jasper, Arcee, IBM und PixAI vor der Veröffentlichung getestet.
Die Einführung der Storage Buckets durch Hugging Face stellt einen strategischen Schritt dar, um den wachsenden Anforderungen an das Datenmanagement in der KI-Entwicklung gerecht zu werden. Durch die Kombination aus nicht-versioniertem, mutablem Objektspeicher, der innovativen Xet-Deduplizierungstechnologie und einer wettbewerbsfähigen Preisgestaltung bietet Hugging Face eine Lösung, die das Potenzial hat, die Art und Weise, wie ML-Teams mit ihren Artefakten umgehen, grundlegend zu verändern. Die Fokussierung auf Effizienz, Kostenreduktion und nahtlose Integration in bestehende ML-Workflows könnte die Plattform weiter als zentralen Partner in der KI-Entwicklung etablieren.
Bibliography: - Hugging Face. (n.d.). Buckets. Abgerufen von https://huggingface.co/docs/huggingface_hub/guides/buckets - Hugging Face. (n.d.). Deduplication. Abgerufen von https://huggingface.co/docs/hub/xet/deduplication - Hugging Face. (n.d.). Storage. Abgerufen von https://huggingface.co/storage - Hugging Face. (n.d.). Xet: our Storage Backend. Abgerufen von https://huggingface.co/docs/hub/storage-backends - Lhoest, Q. (2026, 13. Februar). Basic Bucket API support in HfFileSystem. Pull Request #3807, huggingface/huggingface_hub. Abgerufen von https://github.com/huggingface/huggingface_hub/pull/3807 - Lhoest, Q. (n.d.). #storage #dedupe #huggingface #xet #datasets #ai #buckets - LinkedIn. Abgerufen von https://www.linkedin.com/posts/quentin-lhoest_storage-dedupe-huggingface-activity-7437186341576007680-M2-8 - Zhang, S. (n.d.). Hugging Face Launches Storage Buckets for ML Artifacts. Awesome Agents. Abgerufen von https://awesomeagents.ai/news/huggingface-storage-buckets-mutable-object-storage/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen