Nemotron-Personas-Brazil: Neuer Datensatz für kulturell informierte KI in Brasilien

Kategorien:

No items found.

Freigegeben:

January 28, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

NVIDIA und WideLabs haben gemeinsam "Nemotron-Personas-Brazil" veröffentlicht, einen synthetischen Datensatz zur Förderung souveräner KI in Brasilien.
Der Datensatz umfasst 6 Millionen synthetische Personas in brasilianischem Portugiesisch, die auf realen demografischen und geografischen Daten des brasilianischen Instituts für Geografie und Statistik (IBGE) basieren.
Ziel ist es, hochwertige, kulturell informierte Trainingsdaten bereitzustellen, um die Entwicklung von KI-Systemen zu unterstützen, die spezifisch auf die brasilianische Bevölkerung zugeschnitten sind.
Der Datensatz ist unter der Creative Commons BY 4.0 Lizenz verfügbar und fördert die Demokratisierung synthetischer Daten, um Barrieren in Bezug auf Kosten, Datenschutz und Geografie zu überwinden.
Ein Schwerpunkt liegt auf dem Schutz der Privatsphäre, da alle Personas vollständig synthetisch sind und keine persönlich identifizierbaren Informationen enthalten.

Einführung in Nemotron-Personas-Brazil: Ein Schritt zur Souveränen KI

Die Entwicklung von Künstlicher Intelligenz (KI) erfordert große Mengen an Daten, die die Vielfalt und Komplexität der Gesellschaft, für die sie bestimmt ist, akkurat widerspiegeln. Insbesondere für Länder mit einzigartigen sprachlichen und kulturellen Nuancen stellt die Verfügbarkeit solcher Daten eine signifikante Herausforderung dar. In diesem Kontext haben NVIDIA und WideLabs, ein Mitglied des NVIDIA Inception-Programms, eine bedeutende Initiative gestartet: die Veröffentlichung von "Nemotron-Personas-Brazil". Dieser neue Datensatz ist darauf ausgelegt, die Entwicklung souveräner KI-Systeme in Brasilien zu unterstützen, indem er speziell auf die lokalen Gegebenheiten zugeschnittene synthetische Daten bereitstellt.

Die Notwendigkeit kulturell angepasster Daten

Bestehende KI-Modelle werden oft mit überwiegend englischsprachigen Daten trainiert, was zu einer eingeschränkten Leistungsfähigkeit und kulturellen Fehlinterpretationen führen kann, wenn sie in anderen sprachlichen oder kulturellen Kontexten eingesetzt werden. Brasilien, mit seiner Bevölkerung von über 200 Millionen Menschen und einer ausgeprägten regionalen Vielfalt, ist ein prägnantes Beispiel für diese Herausforderung. Um KI-Systeme zu entwickeln, die den Bedürfnissen der brasilianischen Bevölkerung gerecht werden, sind Daten erforderlich, die die lokale Sprache, Demografie und den kulturellen Kontext genau abbilden. "Nemotron-Personas-Brazil" wurde geschaffen, um diese Lücke zu schließen und eine Grundlage für KI zu schaffen, die "im Land verankert" ist.

Umfang und Beschaffenheit des Datensatzes

Der Datensatz "Nemotron-Personas-Brazil" besteht aus 6 Millionen vollständig synthetischen Personas, die in brasilianischem Portugiesisch verfasst sind. Diese Personas sind statistisch fundiert und basieren auf offiziellen Zensus- und Arbeitsmarktdaten des brasilianischen Instituts für Geografie und Statistik (IBGE). Jede Persona ist auf reale demografische, geografische und berufliche Verteilungen abgestimmt, wobei jedoch betont wird, dass keine realen Personen repräsentiert werden. Dies gewährleistet den Schutz der Privatsphäre und die Einhaltung relevanter Datenschutzbestimmungen.

Der Datensatz umfasst eine breite Palette von Attributen, darunter:

Mehrere Personas-Typen: professionell, sportlich, künstlerisch, reisend und andere.
Über 1.500 Berufskategorien, die die brasilianische Arbeitswelt widerspiegeln.
Etwa 457.000 einzigartige portugiesische Namen.
Umfassende geografische Abdeckung: alle 26 brasilianischen Bundesstaaten plus der Bundesdistrikt.
20 Felder pro Datensatz: 6 Personas-Felder und 14 kontextbezogene Felder, die auf offiziellen Statistiken basieren.
Rund 1,4 Milliarden Token insgesamt, davon etwa 450 Millionen Personas-Token.

Kultureller Kontext und Datenschutz

Ein zentrales Merkmal von "Nemotron-Personas-Brazil" ist die tiefe Verankerung im kulturellen Kontext Brasiliens. Die Personas sind in natürlichem brasilianischem Portugiesisch verfasst und berücksichtigen lokale Namenskonventionen, Kommunikationsstile, soziale Normen, Interessen und Lebensstile. Dies beinhaltet auch die Berücksichtigung von Lebensphasen wie Studentenstatus, Arbeitslosigkeit und Rentenalter sowie eine detaillierte Abbildung von Berufen, die über reine Berufsbezeichnungen hinausgeht und Fähigkeiten, Fachkenntnisse und Karrierewege einschließt, einschließlich Kleinstunternehmer und regionaler Handwerke.

Der Datensatz wurde nach dem Prinzip "Privacy-by-Design" entwickelt. Obwohl reale Verteilungen von Alter, Namen und Berufen aus öffentlichen Quellen verwendet werden, ist keine Information an eine reale, lebende oder verstorbene Person gebunden. Dies ermöglicht das Training an authentischen kulturellen Mustern, ohne die Privatsphäre zu gefährden.

Technologische Umsetzung und Anwendungsbereiche

Die Erstellung von "Nemotron-Personas-Brazil" erfolgte mittels des NVIDIA NeMo Data Designer, einem komplexen KI-System für die Generierung synthetischer Daten. Diese Pipeline unterstützt strukturierte Generierung, Validierung und Wiederholungsmechanismen, die für die Produktion großer, bevölkerungsbewusster Datensätze erforderlich sind. Zu den Schlüsselkomponenten gehören GPT-OSS-120B für die narrative Generierung in brasilianischem Portugiesisch und ein probabilistisches grafisches Modell für die statistische Fundierung.

Der Datensatz richtet sich primär an brasilianische Entwickler und Forscher, die souveräne KI-Systeme aufbauen. Er schließt Lücken, die durch die Dominanz englischsprachiger Trainingskorpora entstanden sind, und ermöglicht es, Modelle zu entwickeln, die regional geerdet, kulturell informiert und kommerziell nutzbar sind. Globale Entwickler können den Datensatz ebenfalls nutzen, um die Modellleistung und -ausrichtung in brasilianischen kulturellen und sprachlichen Kontexten zu verbessern.

Praktische Anwendungen des Datensatzes umfassen:

Bias-Tests und Fairness-Bewertung: Modelle können auf ihre Leistung in ländlichen vs. städtischen Gebieten, verschiedenen Altersgruppen und Bildungsniveaus getestet werden, um Fairness in allen Segmenten der brasilianischen Gesellschaft sicherzustellen.
Domänenspezifisches Training: Entwicklung kulturell bewusster KI-Assistenten.
Mehrstufige Konversationen: Nutzung von Personas als Ausgangspunkt für die Generierung authentischer Dialogdatensätze.

Die Bedeutung für die Souveräne KI

Die Verfügbarkeit von vielfältigen, hochwertigen Trainingsdaten, die reale Bevölkerungen widerspiegeln, ist seit langem eine Herausforderung für KI-Entwickler. Proprietäre Datensätze dominieren den Bereich der Unternehmens-KI und schaffen Barrieren für Forscher, Start-ups und Entwickler in unterrepräsentierten Regionen. "Nemotron-Personas-Brazil" trägt dazu bei, diese Barrieren zu überwinden, indem es den Zugang zu synthetischen Daten auf Unternehmensniveau demokratisiert.

Der Datensatz fördert die kulturelle Authentizität, reduziert die Abhängigkeit von westlich-zentrierten Datensätzen und unterstützt die Entwicklung souveräner KI. Er hilft, enges Training und Modellkollaps zu verhindern, indem er das gesamte Bevölkerungsspektrum Brasiliens widerspiegelt. Darüber hinaus ist er auf die Einhaltung der brasilianischen Datenschutzanforderungen und aufkommender KI-Governance-Standards ausgelegt.

Mit dieser Initiative reiht sich brasilianisches Portugiesisch in die Sprachen ein, die durch offene und strukturierte Personas-Datensätze im Rahmen des globalen NVIDIA-Programms abgedeckt werden, neben Märkten wie den Vereinigten Staaten, Japan, Indien und Singapur.

Ausblick

Die Veröffentlichung von "Nemotron-Personas-Brazil" stellt einen wichtigen Meilenstein in der Entwicklung von KI dar, die weltweit relevanter und gerechter ist. Durch die Bereitstellung eines offenen, kulturell authentischen und datenschutzkonformen Datensatzes ermöglicht NVIDIA in Zusammenarbeit mit WideLabs brasilianischen Entwicklern, KI-Systeme zu schaffen, die die Einzigartigkeit und Vielfalt ihrer Nation widerspiegeln. Dies trägt nicht nur zur technologischen Souveränität bei, sondern fördert auch die Entwicklung von KI-Anwendungen, die einen echten Mehrwert für die lokale Bevölkerung schaffen können.

Wenn Sie mehr über die offenen Datenprodukte von NVIDIA erfahren möchten oder an der Mitgestaltung zukünftiger Datensätze interessiert sind, können Sie der Diskussion auf NVIDIAs Discord-Server beitreten.

Bibliographie

- Nemotron-Personas-Brazil: Co-Designed Data for Sovereign AI. Hugging Face Blog. Verfügbar unter: https://huggingface.co/blog/nvidia/nemotron-personas-brazil (Zuletzt abgerufen: 28. Januar 2026). - WideLabs and Nvidia launch Nemotron Personas Brasil, a dataset for sovereign AI. BNamericas. Verfügbar unter: https://www.bnamericas.com/en/news/widelabs-and-nvidia-launch-nemotron-personas-brasil-a-dataset-for-sovereign-ai (Zuletzt abgerufen: 27. Januar 2026). - nvidia/Nemotron-Personas-Brazil · Datasets at Hugging Face. Verfügbar unter: https://huggingface.co/datasets/nvidia/Nemotron-Personas-Brazil (Zuletzt abgerufen: 26. Januar 2026). - Nemotron Personas (pt_BR) - NVIDIA NGC Catalog. Verfügbar unter: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemotron-personas/resources/nemotron-personas-dataset-pt_br (Zuletzt abgerufen: 26. Januar 2026). - Nemotron-Personas-Brazil: Co-Designed Data for Sovereign AI. Pulse.bot. Verfügbar unter: https://www.pulse.bot/ai/news/nemotron-personas-brazil-co-designed-data-for-sovereign-ai-0e3e06e7-a80c-4eb3-8e44-af31829ae497/ (Zuletzt abgerufen: 28. Januar 2026). - NVIDIA releases Nemotron-Personas-Singapore dataset to support sovereign AI development. Entelechy Asia. Verfügbar unter: https://entelechyasia.com/2026/01/28/nvidia-releases-nemotron-personas-singapore-dataset-to-support-sovereign-ai-development/ (Zuletzt abgerufen: 28. Januar 2026). - Soberana AI: Promises And Challenges For Brazil. Mondaq. Verfügbar unter: https://www.mondaq.com/brazil/new-technology/1716178/soberana-ai-promises-and-challenges-for-brazil (Zuletzt abgerufen: 10. Dezember 2025). - Nemotron-Personas-Japan: Synthesized Data for Sovereign AI. Hugging Face Blog. Verfügbar unter: https://huggingface.co/blog/nvidia/nemotron-personas-japan (Zuletzt abgerufen: 23. September 2025).