KI für Ihr Unternehmen – Jetzt Demo buchen

Hugging Face erweitert seine Datenspeicher- und Infrastrukturstrategien

Kategorien:
No items found.
Freigegeben:
March 26, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Hugging Face sucht einen "Data/Infrastructure Advocate Engineer" zur Stärkung der Daten- und Infrastruktur-Community.
    • Die Rolle konzentriert sich auf die Förderung der Xet-Speichertechnologie auf dem Hugging Face Hub für große Datensätze.
    • Xet ermöglicht effizientes Speichern, Versionieren und Deduplizieren von Daten durch chunk-basierten Ansatz.
    • Hugging Face hat kürzlich "Storage Buckets" eingeführt, eine mutable, S3-ähnliche Objektspeicherlösung, die auf Xet basiert.
    • Diese Buckets sind für dynamische ML-Workflows konzipiert, wie das Speichern von Checkpoints und Prozessdaten.
    • Die Integration der Buckets erfolgt über CLI, Python-API und Fsspec-kompatible Dateisysteme.
    • Die Position erfordert starke technische Fähigkeiten in Python, Datenbibliotheken und Speichersystemen sowie Engagement in der Open-Source-Community.

    Hugging Face verstärkt sein Engagement für Dateninfrastruktur und Community-Building

    In der dynamischen Landschaft der Künstlichen Intelligenz (KI) spielt die effiziente Verwaltung und Speicherung großer Datenmengen eine entscheidende Rolle. Hugging Face, bekannt als eine der am schnellsten wachsenden Plattformen für KI-Entwickler, hat kürzlich eine strategische Personalie und Produktentwicklung bekannt gegeben, die diesen Bereich adressiert. Das Unternehmen sucht aktiv nach einem "Data/Infrastructure Advocate Engineer" und hat gleichzeitig seine neue "Storage Buckets"-Funktionalität vorgestellt.

    Die Rolle des Data/Infrastructure Advocate Engineer

    Die ausgeschriebene Position des "Data/Infrastructure Advocate Engineer" bei Hugging Face zielt darauf ab, die Brücke zwischen modernster Dateninfrastruktur und der globalen Gemeinschaft von Dateningenieuren, Forschern und Entwicklern zu schlagen. Diese Rolle ist von zentraler Bedeutung für die Förderung der Xet-Speichertechnologie auf dem Hugging Face Hub.

    Kernaufgaben der Position

    Zu den Hauptaufgaben des Data/Infrastructure Advocate Engineer gehören:

    • Wachstum und Pflege der Open-Source-Daten-/Infrastruktur-Community durch Initiativen, Zusammenarbeit mit datenorientierten Gruppen und die Organisation von Veranstaltungen oder Challenges.
    • Förderung des Hugging Face Hub als zentrale Plattform für Datenspeicherung, Versionierung und Zusammenarbeit, insbesondere durch die Kuration und Präsentation von Datensätzen, Benchmarks und Tools wie Xet.
    • Hervorhebung von Anwendungsfällen wie effiziente Updates großer Datensätze, Parquet-Bearbeitung und Deduplizierung, um den Wert des Hubs für Daten-Workflows zu demonstrieren.
    • Erstellung von Demos, Benchmarks und Tools (z.B. Colab-Notebooks), die Best Practices für Datenspeicherung und Versionierung aufzeigen.
    • Experimente mit Xet, Parquet und anderen Datenformaten zur Demonstration ihres Potenzials für maschinelles Lernen (ML) und Data Engineering.
    • Erstellung hochwertiger Tutorials, Blogbeiträge und Videos, die komplexe Themen zugänglich machen.
    • Teilen von Erkenntnissen zur Speicheroptimierung, Datensatzversionierung und Deduplizierung, um Entwickler zu unterstützen.
    • Aktive Teilnahme an Online-Communities (Discord, GitHub, Foren), um Beiträge hervorzuheben, Fragen zu beantworten und die Zusammenarbeit zu fördern.
    • Sicherstellung, dass auf dem Hub veröffentlichte Datensätze und Tools gut dokumentiert sind und klare Beispiele, Benchmarks und Anwendungsfälle enthalten.

    Diese Anforderungen unterstreichen die Notwendigkeit einer Kombination aus technischer Expertise und ausgeprägten Kommunikationsfähigkeiten. Kandidaten sollten über fundierte Kenntnisse in Python, Datenbibliotheken (z.B. Pandas, PyArrow) und Speichersystemen (Parquet, Open Table Formats, S3) verfügen und eine Leidenschaft für Open Source und Wissensaustausch mitbringen.

    Einführung von Storage Buckets auf dem Hugging Face Hub

    Parallel zur Besetzung dieser Schlüsselposition hat Hugging Face die Einführung von "Storage Buckets" auf dem Hugging Face Hub bekannt gegeben. Diese neue Funktionalität stellt eine signifikante Erweiterung der Plattform dar und adressiert die Herausforderungen bei der Verwaltung dynamischer ML-Artefakte.

    Herausforderungen im Umgang mit ML-Daten

    Traditionelle Versionskontrollsysteme wie Git sind für die Veröffentlichung finaler Artefakte gut geeignet. Im Bereich des maschinellen Lernens entstehen jedoch kontinuierlich Zwischenergebnisse wie Checkpoints, Optimierungszustände, verarbeitete Daten-Shards, Logs und Traces. Diese Dateien ändern sich häufig, werden von vielen Jobs gleichzeitig erzeugt und benötigen selten eine detaillierte Versionskontrolle im herkömmlichen Sinne. Hier stoßen bestehende Lösungen oft an ihre Grenzen.

    Die Lösung: Storage Buckets basierend auf Xet

    Storage Buckets sind als mutable, S3-ähnliche Objektspeicher konzipiert, die direkt im Hub durchsucht, über Python gescriptet oder mit dem hf CLI verwaltet werden können. Ein zentrales Merkmal dieser Buckets ist ihre Grundlage auf Xet, dem chunk-basierten Speicher-Backend von Hugging Face.

    Die Bedeutung von Xet

    Xet unterscheidet sich von herkömmlichen Speichersystemen, indem es Dateien nicht als monolithische Blobs behandelt, sondern Inhalte in Chunks zerlegt und diese über verschiedene Dateien hinweg dedupliziert. Dies bietet mehrere Vorteile:

    • Effizienz bei der Speicherung: Wenn ein verarbeiteter Datensatz hochgeladen wird, der dem Rohdatensatz weitgehend ähnelt, existieren viele Chunks bereits. Dies reduziert den Speicherbedarf erheblich.
    • Schnellere Übertragungen: Da bereits vorhandene Bytes übersprungen werden, verringert sich die benötigte Bandbreite und die Übertragungszeiten verkürzen sich.
    • Kostenersparnis: Für Unternehmenskunden erfolgt die Abrechnung basierend auf dedupliziertem Speicher, was die Kosten direkt reduziert.

    Diese Eigenschaften machen Xet zu einer idealen Lösung für ML-Workflows, die ständig Familien verwandter Artefakte wie Roh- und Prozessdaten, aufeinanderfolgende Checkpoints und Agenten-Traces produzieren.

    Integration und Nutzung der Buckets

    Die Storage Buckets sind nahtlos in das Hugging Face Ökosystem integriert und bieten verschiedene Zugriffsmöglichkeiten:

    • CLI (Command Line Interface): Die hf CLI ermöglicht es, Buckets schnell zu erstellen, zu synchronisieren und zu verwalten. Beispielsweise können lokale Verzeichnisse mit Checkpoints einfach in einen Bucket synchronisiert werden.
    • Python API: Über die huggingface_hub Bibliothek (ab Version 1.5.0) können Entwickler Buckets direkt in ihre Python-Skripte integrieren. Dies umfasst Funktionen zum Erstellen, Synchronisieren und Auflisten von Bucket-Inhalten.
    • Dateisystem-Integration: Durch HfFileSystem, ein Fsspec-kompatibles Dateisystem in huggingface_hub, können Buckets mit Standard-Dateisystemoperationen wie Listung, Lesen, Schreiben und Globbing genutzt werden. Bibliotheken wie Pandas, Polars und Dask können über hf://-Pfade direkt auf Bucket-Inhalte zugreifen.

    Pre-Warming für optimale Performance

    Um die Performance bei verteilten Trainings und großskaligen Pipelines zu optimieren, bieten die Storage Buckets eine "Pre-Warming"-Funktion. Diese ermöglicht es, häufig genutzte Daten näher an den Cloud-Anbieter und die Region zu bringen, in der die Rechenleistung erbracht wird. Dadurch muss das System die Daten nicht bei jedem Lesevorgang über Regionen hinweg abrufen, was den Durchsatz erheblich verbessert. Hugging Face arbeitet hierfür mit Cloud-Anbietern wie AWS und GCP zusammen.

    Übergang von Buckets zu versionierten Repositories

    Storage Buckets sind für die dynamische Phase von Artefakten gedacht. Sobald ein Artefakt zu einem stabilen Ergebnis wird, kann es in ein versioniertes Modell- oder Datensatz-Repository überführt werden. Hugging Face plant, direkte Übertragungen zwischen Buckets und Repositories in beide Richtungen zu unterstützen, um einen durchgängigen Workflow zu ermöglichen.

    Fazit

    Die strategische Besetzung des Data/Infrastructure Advocate Engineer und die Einführung der Storage Buckets unterstreichen das Bestreben von Hugging Face, die Infrastruktur für die KI-Entwicklung kontinuierlich zu verbessern. Durch den Fokus auf effiziente, mutable Speichersysteme und die aktive Einbindung der Community positioniert sich das Unternehmen weiterhin als zentraler Akteur in der Demokratisierung der KI. Diese Entwicklungen bieten Unternehmen und Entwicklern verbesserte Werkzeuge zur Verwaltung ihrer Daten-Workflows und zur Skalierung ihrer KI-Projekte.

    Bibliography: - LinkedIn Job Posting: Data/Infrastructure Advocate Engineer - US Remote. (2026, February 27). Retrieved from https://www.linkedin.com/jobs/view/data-infrastructure-advocate-engineer-us-remote-at-hugging-face-4368637408 - Hugging Face Blog: Introducing Storage Buckets on the Hugging Face Hub. (2026, March 10). Retrieved from https://api-inference.hf-mirror.com/blog/storage-buckets - Houtini AI Jobs: Data/Infrastructure Advocate Engineer at Hugging Face. Retrieved from https://houtini.com/jobs/data-infrastructure-advocate-engineer/ - Himalayas Job Posting: Hugging Face hiring Data/Infrastructure Advocate Engineer - US Remote. Retrieved from https://himalayas.app/companies/hugging-face/jobs/data-infrastructure-advocate-engineer-us-remote - Remotive Job Posting: [Hiring] Data/Infrastructure Advocate Engineer @Hugging Face. Retrieved from https://remotive.com/remote/jobs/all-others/data-infrastructure-advocate-engineer-3560896 - Getro.org Job Board: Data/Infrastructure Advocate Engineer - US Remote @ Hugging Face. Retrieved from https://www.getro.org/companies/hugging-face/jobs/66687696-data-infrastructure-advocate-engineer-us-remote - Lux Capital Job Board: Data/Infrastructure Advocate Engineer - US Remote @ Hugging Face. Retrieved from https://jobs.luxcapital.com/companies/hugging-face/jobs/66687696-data-infrastructure-advocate-engineer-us-remote - Echojobs.io: Data/Infrastructure Advocate Engineer at Hugging Face. Retrieved from https://echojobs.io/job/hugging-face-data-infrastructure-advocate-engineer-emea-remote-k2mmo - GitHub Pull Request #3936: feat(jobs): add volume mounting support for buckets and repos. (2026, March 16). Retrieved from https://github.com/huggingface/huggingface_hub/pull/3936

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen