Neuer Objektspeicher von Hugging Face: Buckets für effiziente KI-Datenverwaltung

Kategorien:

No items found.

Freigegeben:

March 6, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Hugging Face hat die Version 1.5.0 seiner `huggingface_hub`-Bibliothek veröffentlicht, die eine neue Speicherlösung namens "Buckets" einführt.
Buckets bieten einen S3-ähnlichen Objektspeicher auf Hugging Face, der auf dem Xet-Speicher-Backend basiert und für große Dateien ohne Versionskontrolle optimiert ist.
Im Gegensatz zu Git-basierten Repositories speichern Buckets Dateien direkt, ohne Git-Historie, und nutzen Inhalts-adressierbare Deduplizierung.
Die neue Funktionalität ist sowohl über eine erweiterte Befehlszeilenschnittstelle (CLI) als auch über eine Python-API zugänglich.
Buckets eignen sich ideal für die Speicherung von Trainings-Checkpoints, Logs und anderen temporären Artefakten in KI-Entwicklungsprozessen.
Die Version 1.5.0 enthält zudem Verbesserungen für KI-Coding-Agenten, experimentelles Space Hot-Reload und weitreichende CLI-Optimierungen.

Einführung der Hugging Face Buckets: Eine neue Ära der Datenspeicherung für KI-Workflows

Die Landschaft der Künstlichen Intelligenz (KI) entwickelt sich rasant weiter, und mit ihr steigen die Anforderungen an effiziente Datenverwaltung und -speicherung. In diesem Kontext hat Hugging Face, bekannt als zentrale Plattform für Open-Source-KI-Modelle und -Datensätze, eine signifikante Neuerung in seiner huggingface_hub-Bibliothek vorgestellt: die Einführung von "Buckets" in Version 1.5.0. Diese Entwicklung markiert einen wichtigen Schritt zur Optimierung der Speicherung großer, dynamischer Datensätze, die in modernen KI-Entwicklungsprozessen anfallen.

Was sind Hugging Face Buckets?

Hugging Face Buckets sind eine neue Form des Objektspeichers, der eine S3-ähnliche Funktionalität direkt auf der Hugging Face Plattform bietet. Im Kern nutzen diese Buckets das Xet-Speicher-Backend, welches speziell für große Dateien und Inhalts-adressierbare Deduplizierung konzipiert wurde. Im Gegensatz zu den traditionellen Git-basierten Repositories auf Hugging Face, die eine vollständige Versionshistorie jedes Dateizustands speichern, konzentrieren sich Buckets auf die effiziente Speicherung von großen Dateien, die keine umfassende Git-Historie benötigen.

Die primäre Zielsetzung von Buckets ist es, eine schnelle, veränderliche und skalierbare Speicherlösung für Anwendungsfälle bereitzustellen, bei denen die Dateiversionierung auf Git-Ebene nicht erforderlich oder sogar hinderlich ist. Dazu gehören beispielsweise:

Speicherung von Trainings-Checkpoints
Verwaltung von Log-Dateien
Ablegen von Zwischenergebnissen und Artefakten
Jede Art von großen Dateisammlungen, die keiner Versionskontrolle bedürfen

Die Implementierung durch das Xet-Backend ermöglicht eine chunk-basierte Deduplizierung, was bedeutet, dass nur die tatsächlich geänderten Datenblöcke übertragen und gespeichert werden. Dies kann zu erheblichen Effizienzsteigerungen bei Uploads und Downloads führen, insbesondere bei iterativen Änderungen an großen Dateien.

Integration und Nutzung

Zugriff über CLI und Python API

Die Interaktion mit den neuen Buckets ist sowohl über eine erweiterte Befehlszeilenschnittstelle (CLI) als auch über eine dedizierte Python-API (HfApi) möglich. Dies bietet Entwicklern Flexibilität, je nachdem, ob sie manuelle Operationen durchführen oder Bucket-Funktionalitäten in ihre Skripte und Anwendungen integrieren möchten.

Über die CLI können Benutzer beispielsweise Buckets erstellen, Dateien hoch- und herunterladen, Inhalte synchronisieren und Bucket-Informationen abrufen. Die Befehle sind intuitiv gestaltet und ähneln gängigen Dateiverwaltungstools wie rsync für Synchronisierungsaufgaben.

Die Python-API ermöglicht eine programmatische Steuerung aller Bucket-Operationen, was für automatisierte Workflows und die Integration in ML-Frameworks unerlässlich ist. Funktionen wie create_bucket(), batch_bucket_files() für Uploads und Deletionen sowie download_bucket_files() sind direkt verfügbar.

Synchronisierungsfunktionen

Ein besonderes Merkmal der Buckets ist die leistungsstarke Synchronisierungsfunktion, die eine lokale Verzeichnisstruktur mit einem Bucket abgleichen kann. Diese Funktion vergleicht Dateien basierend auf Größe und Änderungszeit und überträgt nur die geänderten Daten. Optionen wie --delete ermöglichen es, Dateien im Ziel zu entfernen, die in der Quelle nicht mehr existieren. Ferner können Filterregeln (--include, --exclude) angewendet werden, um den Synchronisierungsumfang präzise zu steuern.

Planungs- und Anwendungsmodi

Für kritische Operationen bietet die Synchronisierungsfunktion einen Planungsmodus (--plan), der es ermöglicht, den geplanten Abgleich vor der eigentlichen Ausführung zu überprüfen. Dies minimiert das Risiko unbeabsichtigter Datenänderungen und ermöglicht eine "Review-before-Execute"-Strategie. Ein "Dry Run"-Modus (--dry-run) ist ebenfalls verfügbar, um eine Vorschau der Operationen zu erhalten, ohne Änderungen vorzunehmen.

Vorteile und Anwendungsbereiche im B2B-Kontext

Für Unternehmen, die KI-Modelle entwickeln und betreiben, bieten die neuen Hugging Face Buckets mehrere signifikante Vorteile:

Effiziente Speicherung großer Artefakte: In KI-Projekten fallen oft riesige Mengen an Daten an, wie z.B. Modellgewichte nach jedem Trainingsschritt oder umfangreiche Logs. Buckets ermöglichen deren effiziente Speicherung und Verwaltung, ohne die Overhead-Kosten der vollständigen Versionskontrolle, die Git mit sich bringen würde.
Beschleunigte Entwicklungsprozesse: Durch die Inhalts-adressierbare Deduplizierung und optimierte Übertragungsmechanismen können Entwickler schneller auf Trainingsdaten und Modell-Checkpoints zugreifen. Dies verkürzt Iterationszyklen und beschleunigt die Modellanpassung und -optimierung.
Skalierbarkeit: Die S3-ähnliche Architektur und das Xet-Backend sind auf Hochleistung und Skalierbarkeit ausgelegt, was den Anforderungen von Unternehmen mit wachsenden Datenmengen und komplexen KI-Workflows gerecht wird.
Vereinfachte Integration: Die umfassende CLI und Python API erleichtern die Integration der Bucket-Funktionalitäten in bestehende MLOps-Pipelines und Automatisierungsskripte.
Kostenoptimierung: Die Deduplizierungsfunktionen können dazu beitragen, Speicherkosten zu reduzieren, da redundante Datenblöcke nur einmal gespeichert werden.

Weitere Neuerungen in Version 1.5.0

Neben der Einführung der Buckets bietet die Version 1.5.0 der huggingface_hub-Bibliothek weitere wichtige Verbesserungen:

Unterstützung für KI-Agenten: Die Bibliothek wurde mit Funktionen ausgestattet, die die Erfahrung für KI-Coding-Agenten (wie Claude Code, OpenCode, Cursor) verbessern sollen. Dazu gehören eine zentralisierte CLI-Fehlerbehandlung und effizientere "Skills" für Agenten.
Space Hot-Reload (Experimentell): Eine experimentelle Funktion, die das Hot-Reloading von Python-Dateien in Hugging Face Spaces ermöglicht, ohne einen vollständigen Neuaufbau und Neustart. Dies ist besonders nützlich für die schnelle Iteration bei der Entwicklung von Gradio-Anwendungen.
Umfassende CLI-Verbesserungen: Die Befehlszeilenschnittstelle wurde grundlegend überarbeitet, mit neuen Befehlen für Collections und Papers, einer erweiterten Erweiterungsmechanismus-Funktion, flexibleren Ausgabeformatoptionen und allgemeinen Usability-Verbesserungen.
Inferenz-Optimierungen: Unterstützung für Beschleunigerparameter bei Inferenz-Endpunkten und verschiedene Fixes im Bereich der Inferenz-Provider.

Fazit

Die Einführung von Buckets in huggingface_hub v1.5.0 stellt eine strategische Erweiterung der Hugging Face Plattform dar, die speziell auf die Anforderungen moderner KI-Workflows zugeschnitten ist. Durch die Bereitstellung eines S3-ähnlichen Objektspeichers mit fortschrittlicher Deduplizierung und einer robusten API-Schnittstelle wird die Verwaltung großer Datensätze und Modell-Artefakte erheblich vereinfacht und beschleunigt. Diese Entwicklung unterstreicht das Engagement von Hugging Face, die Infrastruktur für die Open-Source-KI-Gemeinschaft kontinuierlich zu verbessern und Unternehmen leistungsstarke Werkzeuge für ihre KI-Initiativen an die Hand zu geben.

Bibliographie

- Hugging Face Blog: "From Chunks to Blocks: Accelerating Uploads and Downloads on the Hub". Verfügbar unter: https://huggingface.co/blog/from-chunks-to-blocks - Hugging Face Documentation: "Buckets". Verfügbar unter: https://huggingface.co/docs/huggingface_hub/en/guides/buckets - Hugging Face Documentation: "Interact with the Hub through the Filesystem API". Verfügbar unter: https://huggingface.co/docs/huggingface_hub/guides/hf_file_system - Hugging Face Documentation: "Upload files to the Hub". Verfügbar unter: https://huggingface.co/docs/huggingface_hub/how-to-upstream - New Releases: "huggingface/huggingface_hub v1.5.0.rc0 on GitHub". Verfügbar unter: https://newreleases.io/project/github/huggingface/huggingface_hub/release/v1.5.0.rc0 - GitHub: "Buckets API · Issue #3796 · huggingface/huggingface_hub". Verfügbar unter: https://github.com/huggingface/huggingface_hub/issues/3796 - GitHub: "Basic Bucket API support in HfFileSystem · Pull Request #3807 · huggingface/huggingface_hub". Verfügbar unter: https://github.com/huggingface/huggingface_hub/pull/3807 - SourceForge: "huggingface_hub - Browse /v1.5.0 at ...". Verfügbar unter: https://sourceforge.net/projects/huggingface-hub.mirror/files/v1.5.0/ - Hugging Face Documentation: "Xet: our Storage Backend". Verfügbar unter: https://huggingface.co/docs/hub/storage-backends - Hugging Face Blog: "huggingface_hub v1.0: Five Years of Building the Foundation of Open Machine Learning". Verfügbar unter: https://huggingface.co/blog/huggingface-hub-v1