Hugging Face führt Buckets ein: Eine innovative Lösung zur Speicherung großer Datenmengen in KI-Workflows

Kategorien:

No items found.

Freigegeben:

March 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Hugging Face bietet mit "Buckets" eine neue Objektspeicherlösung, die auf dem Xet-Speicher-Backend basiert und für KI-Workflows optimiert ist.
Im Gegensatz zu traditionellen Git-basierten Repositories ermöglichen Buckets die Speicherung großer, veränderlicher Dateien wie Trainings-Checkpoints und Datensätze ohne Versionskontroll-Overhead.
Die Technologie nutzt Content-Defined Chunking (CDC) zur effizienten Deduplizierung von Daten auf Chunk-Ebene, was Speicherkosten und Übertragungszeiten reduziert.
Buckets sind über eine Python-API und eine CLI zugänglich und unterstützen Operationen wie Erstellen, Verwalten, Hochladen, Herunterladen und Synchronisieren von Dateien und Verzeichnissen.
Die Lösung zielt darauf ab, die Herausforderungen im Umgang mit großen Datenmengen in der KI-Forschung und -Entwicklung zu adressieren, insbesondere im Hinblick auf Kosten und Effizienz.

Die Verwaltung und Speicherung großer Datenmengen stellt in der heutigen KI-Landschaft eine zentrale Herausforderung dar. Insbesondere in Forschungsteams, die mit dem Hugging Face (HF) Ökosystem arbeiten, können Ablations-Checkpoints und umfangreiche Datensätze schnell Terabyte an Speicherplatz beanspruchen. Dies führt zu erheblichen Kosten und potenziellen Engpässen im Workflow. Eine aktuelle Entwicklung im Hugging Face Ökosystem, die sogenannte "Buckets"-Funktionalität, adressiert diese Problematik direkt und bietet eine spezialisierte Lösung für die Speicherung großer, dynamischer Daten.

Die Herausforderung der Datenspeicherung in KI-Workflows

Traditionelle Methoden zur Speicherung von KI-Assets, insbesondere über Git Large File Storage (Git LFS), stoßen an ihre Grenzen, wenn es um die Skalierung und Effizienz geht. Git LFS speichert und versioniert Dateien auf Dateiebene. Jede Änderung, selbst eine marginale Anpassung an Metadaten einer großen Datei, erfordert daher das erneute Hochladen der gesamten Datei. Bei Dateigrößen von mehreren Gigabyte, wie sie bei Safetensor-Dateien oder GGUF-Modellen üblich sind, führt dies zu langen Upload-Zeiten, hohen Transferkosten und einem aufgeblähten Speicherbedarf, da jede vollständige Version der Datei gespeichert wird.

Forschungsteams, die regelmäßig mit umfangreichen Datensätzen und einer Vielzahl von Modell-Checkpoints arbeiten, sind von diesen Einschränkungen besonders betroffen. Die Notwendigkeit, Hunderte von Terabyte an Daten effizient zu verwalten, erfordert eine Infrastruktur, die über die Möglichkeiten herkömmlicher Versionskontrollsysteme hinausgeht.

Hugging Face Buckets: Eine neue Speicherarchitektur

Als Antwort auf diese Herausforderungen hat Hugging Face die "Buckets"-Funktionalität eingeführt. Diese bieten einen S3-ähnlichen Objektspeicher, der auf dem Xet-Speicher-Backend basiert. Im Gegensatz zu den Git-basierten Repositories, die die vollständige Dateihistorie verfolgen, sind Buckets als Remote-Objektspeicher konzipiert. Ihr Hauptmerkmal ist die Inhalts-adressierbare Deduplizierung, die sie besonders für große Dateien prädestiniert, die keine vollständige Versionskontrolle im Git-Sinne benötigen.

Kernmerkmale und Vorteile

Optimiert für KI-Workflows: Buckets sind speziell für Anwendungsfälle entwickelt, die einen einfachen, schnellen und veränderlichen Speicher erfordern. Dazu gehören Trainings-Checkpoints, Logs, Zwischenergebnisse oder jede andere große Sammlung von Dateien, bei der die Versionskontrolle auf Dateiebene nicht primär ist.
Content-Defined Chunking (CDC): Die zugrunde liegende Xet-Technologie nutzt CDC. Anstatt Dateien als unteilbare Einheiten zu behandeln, zerlegt CDC sie in variable Chunks, wobei die Daten selbst die Grenzen definieren. Ein Rolling-Hash-Algorithmus identifiziert diese Chunks. Werden Änderungen an einer Datei vorgenommen, werden nur die modifizierten Chunks neu hochgeladen und gespeichert, was den Speicherbedarf und die Übertragungszeiten erheblich reduziert. Beispielsweise kann bei einer Modell-Retraining, bei der sich nur 5% der Gewichte ändern, auch nur dieser Anteil neu übertragen werden.
Kosteneffizienz: Durch die Deduplizierung auf Chunk-Ebene und ein optimiertes Speichermodell können die Kosten für die Speicherung großer Datenmengen signifikant gesenkt werden. Hugging Face bietet eine transparente, volumenbasierte Preisgestaltung an, die oft günstiger ist als vergleichbare Cloud-Speicherlösungen.
Integrierte CDN-Unterstützung: Jeder Bucket beinhaltet ein Content Delivery Network (CDN), das einen schnellen Zugriff auf Daten durch lokalisierte Caches in der Nähe der Rechenressourcen ermöglicht. Dies beschleunigt das Streaming und Herunterladen von Daten.
Flexibilität und Zugänglichkeit: Die Interaktion mit Buckets kann über eine leistungsstarke Python-API (HfApi) oder über die Kommandozeile (CLI) erfolgen. Dies ermöglicht eine nahtlose Integration in bestehende Entwicklungs- und Automatisierungsumgebungen.

Praktische Anwendungen und Funktionalitäten

Die Implementierung der Buckets-Funktionalität umfasst eine Reihe von Operationen, die für die Verwaltung großer Datenmengen unerlässlich sind:

Bucket-Verwaltung

Erstellen und Löschen: Nutzer können Buckets unter ihrem Benutzernamen oder einer Organisation erstellen und verwalten. Die Löschung ist eine irreversible Operation.
Informationen abrufen: Für jeden Bucket können Metadaten wie Sichtbarkeit, Gesamtgröße, Dateianzahl und Erstellungsdatum abgerufen werden.
Auflisten von Buckets: Eine Übersicht über alle Buckets in einem Namespace ist verfügbar.
Verschieben von Buckets: Buckets können umbenannt oder in andere Namespaces übertragen werden.

Datei- und Verzeichnisoperationen

Hochladen: Dateien können einzeln oder in Batches hochgeladen werden, entweder von lokalen Pfaden oder direkt aus Byte-Streams. Es besteht auch die Möglichkeit, Dateien beim Hochladen anderer zu löschen.
Herunterladen: Einzelne Dateien oder ganze Verzeichnisse können effizient heruntergeladen werden. Für eine verbesserte Leistung können BucketFile-Objekte verwendet werden, die Metadaten-Abrufe überspringen.
Synchronisieren: Die hf buckets sync-Funktion ist eine zentrale Komponente. Sie gleicht lokale Verzeichnisse mit Buckets ab und überträgt nur geänderte Dateien. Dies unterstützt auch das Löschen redundanter Dateien am Zielort und bietet Filteroptionen (Include/Exclude) sowie verschiedene Vergleichsmodi (z.B. nur Größe oder Änderungszeit).
Dateien löschen: Spezifische Dateien oder ganze Verzeichnisstrukturen innerhalb eines Buckets können entfernt werden.

Erweiterte Funktionen

Für komplexere Anwendungsfälle stehen zusätzliche Methoden zur Verfügung, wie das Abrufen von Informationen über spezifische Pfade in einem Batch oder Metadaten für einzelne Dateien, was die Integration in automatisierte Pipelines weiter vereinfacht.

Ausblick und Bedeutung für die KI-Entwicklung

Die Einführung von Hugging Face Buckets, angetrieben durch die Xet-Technologie, stellt einen wichtigen Schritt zur Bewältigung der datenintensiven Anforderungen in der KI-Forschung und -Entwicklung dar. Durch die Optimierung der Speicherung und des Transfers großer Dateien, insbesondere durch Content-Defined Chunking, wird nicht nur die Effizienz gesteigert, sondern auch die finanzielle Belastung für Forschungsteams reduziert. Dies ermöglicht eine schnellere Iteration bei der Modellentwicklung und erleichtert die Zusammenarbeit an umfangreichen Datensätzen und Modellen.

Die konsequente Weiterentwicklung solcher Infrastrukturlösungen ist entscheidend, um den Fortschritt im Bereich der Künstlichen Intelligenz zu gewährleisten. Sie adressiert direkt die praktischen Herausforderungen, denen sich KI-Entwickler und -Forscher täglich gegenübersehen, und fördert eine Umgebung, in der Innovationen schneller und kosteneffizienter umgesetzt werden können.

Bibliographie

- Hugging Face. (o. J.). Buckets. Abgerufen von https://huggingface.co/docs/huggingface_hub/guides/buckets - Hugging Face. (o. J.). Storage - Hugging Face. Abgerufen von https://huggingface.co/storage - Abdur-Rahman, P. (2026, 31. Januar). From Files to Chunks: Improving HF Storage Efficiency - Nionee Nexus. Nionee Nexus. Abgerufen von https://blogs.nionee.com/from-files-to-chunks-improving-hf-storage-efficiency/ - huggingface/huggingface_hub. (2026, 13. Februar). Basic Bucket API support in HfFileSystem · Pull Request #3807 · huggingface/huggingface_hub. GitHub. Abgerufen von https://github.com/huggingface/huggingface_hub/pull/3807 - Hugging Face. (o. J.). From Files to Chunks: Improving HF Storage Efficiency. Abgerufen von https://huggingface.co/blog/from-files-to-chunks - Hugging Face. (o. J.). Xet: our Storage Backend. Abgerufen von https://huggingface.co/docs/hub/storage-backends - newreleases.io. (2026, 26. Februar). huggingface/huggingface_hub v1.5.0.rc0 on GitHub. Abgerufen von https://newreleases.io/project/github/huggingface/huggingface_hub/release/v1.5.0.rc0 - rzammit001. (2022, 3. November). What’s the deal with hugging face’s popularity? Reddit. Abgerufen von https://www.reddit.com/r/MLQuestions/comments/ylf4be/whats_the_deal_with_hugging_faces_popularity/ - huggingface/accelerate. (2023, 30. Mai). load_checkpoint_and_dispatch compatibility with accelerate FSDP? · Issue #1488 · huggingface/accelerate. GitHub. Abgerufen von https://github.com/huggingface/accelerate/issues/1488