Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Verwaltung von Daten in Machine Learning (ML)-Projekten stellt Unternehmen vor wachsende Herausforderungen. Insbesondere die Speicherung und der effiziente Zugriff auf große Mengen an Zwischenergebnissen, wie Trainings-Checkpoints, Logs und verarbeitete Datensätze, erfordert Lösungen, die über traditionelle Dateisysteme oder versionierte Repositories hinausgehen. In diesem Kontext hat Hugging Face, eine zentrale Plattform für die ML-Community, kürzlich "Storage Buckets" eingeführt. Diese Neuerung zielt darauf ab, die Speicherlandschaft für ML-Teams zu optimieren und eine leistungsfähigere, kostengünstigere Alternative zu bestehenden Cloud-Speicherdiensten anzubieten.
Bestehende Lösungen, wie beispielsweise AWS S3, sind zwar robust und weit verbreitet, behandeln jedoch alle Dateitypen, von hochauflösenden Bildern bis zu umfangreichen Modell-Checkpoints, gleich. Dies führt in ML-Workflows, die durch iterative Änderungen, häufige Überschreibungen und die Generierung großer, ähnlicher Dateien gekennzeichnet sind, zu Ineffizienzen. Git-basierte Versionierungssysteme, wie sie traditionell für Code verwendet werden, stoßen an ihre Grenzen, wenn es um die Speicherung von Gigabyte-großen Binärdateien geht. Jede noch so kleine Änderung an einer solchen Datei erfordert oft das erneute Hochladen der gesamten Datei, was Zeit und Ressourcen kostet.
Hugging Face nutzt seit Langem Git-basierte Repositories für Modelle und Datensätze. Diese eignen sich hervorragend für die Veröffentlichung finaler Artefakte, jedoch weniger für die dynamischen, sich ständig ändernden Daten während des Entwicklungsprozesses. Die Gründe hierfür sind vielfältig:
Die neu eingeführten Storage Buckets von Hugging Face sind als S3-ähnlicher Objektspeicher konzipiert, jedoch mit einem entscheidenden Unterschied: Sie sind speziell für ML-Artefakte optimiert. Sie bieten einen veränderbaren, nicht versionierten Speicher, der direkt im Hugging Face Hub verwaltet werden kann.
Das Herzstück der Storage Buckets ist die Xet-Technologie. Xet ist ein Chunk-basiertes Speichersystem, das Dateien nicht als monolithische Blöcke behandelt, sondern in kleinere, inhaltsdefinierte "Chunks" zerlegt. Diese Chunks werden dann dedupliziert. Das bedeutet, wenn beispielsweise ein Modell-Checkpoint aktualisiert wird und sich nur 5% der Gewichte ändern, werden nur diese 5% der Daten hochgeladen und gespeichert. Die bereits vorhandenen Chunks bleiben unverändert. Dies hat mehrere Vorteile:
Die Interaktion mit den Storage Buckets ist vielseitig gestaltet:
hf CLI können Nutzer Buckets erstellen, Dateien synchronisieren (ähnlich wie rsync), kopieren und löschen.huggingface_hub Python-Paket (ab Version 1.5.0) bietet eine API zur programmatischen Verwaltung von Buckets, was die Integration in Trainings-Skripte und Datenpipelines erleichtert.HfFileSystem können Bibliotheken wie Pandas, Polars und Dask direkt auf Bucket-Inhalte zugreifen.Hugging Face bietet eine gestaffelte Preisstruktur für Storage Buckets an, die mit zunehmendem Speichervolumen sinkt. Im Vergleich zu AWS S3 Standard, bei dem die Kosten bei etwa 23 USD pro TB pro Monat liegen können, starten Hugging Face Buckets bei 12 USD pro TB pro Monat für öffentlichen Speicher und können bei Volumina über 500 TB auf bis zu 8 USD pro TB pro Monat sinken. Für private Repositories liegen die Preise etwas höher. Die Deduplizierungsfunktion von Xet kann die effektiven Kosten zusätzlich senken, da nur der tatsächlich gespeicherte (deduplizierte) Inhalt berechnet wird.
Die Einführung von Storage Buckets adressiert mehrere kritische Anwendungsfälle in der ML-Entwicklung:
Ein weiteres wichtiges Feature ist das "Pre-warming". Es ermöglicht, häufig genutzte Daten in spezifischen Cloud-Regionen vorab zu cachen. Dies ist besonders vorteilhaft für verteilte Trainings, bei denen Rechenressourcen in verschiedenen Regionen oder bei unterschiedlichen Cloud-Anbietern genutzt werden. Durch die Bereitstellung der Daten in der Nähe der Compute-Einheiten werden Latenzen minimiert und der Datendurchsatz maximiert.
Hugging Face plant, die Integration zwischen Storage Buckets und versionierten Repositories weiter zu vertiefen. Dies soll direkte Übertragungen zwischen beiden Speichertypen ermöglichen, sodass beispielsweise ein finaler Checkpoint aus einem Bucket direkt in ein Modell-Repository überführt oder verarbeitete Datenshards in ein Dataset-Repository committet werden können. Ziel ist es, den gesamten ML-Workflow innerhalb des Hugging Face Hub abzubilden und eine nahtlose Erfahrung von der Datenerzeugung bis zur Veröffentlichung zu gewährleisten.
Die Storage Buckets stellen eine signifikante Weiterentwicklung in der Infrastruktur für Machine Learning dar. Durch die Kombination von S3-ähnlichem Objektspeicher mit der fortschrittlichen Deduplizierungstechnologie von Xet bietet Hugging Face eine Lösung, die nicht nur die Effizienz und Geschwindigkeit von ML-Workflows verbessert, sondern auch dazu beitragen kann, die Betriebskosten zu senken. Für Unternehmen, die intensiv mit KI-Modellen und großen Datensätzen arbeiten, könnte dies eine attraktive Alternative zu herkömmlichen Cloud-Speicherdiensten darstellen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen