Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Künstlicher Intelligenz (KI) erfordert große Mengen an Daten, die die Vielfalt und Komplexität der Gesellschaft, für die sie bestimmt ist, akkurat widerspiegeln. Insbesondere für Länder mit einzigartigen sprachlichen und kulturellen Nuancen stellt die Verfügbarkeit solcher Daten eine signifikante Herausforderung dar. In diesem Kontext haben NVIDIA und WideLabs, ein Mitglied des NVIDIA Inception-Programms, eine bedeutende Initiative gestartet: die Veröffentlichung von "Nemotron-Personas-Brazil". Dieser neue Datensatz ist darauf ausgelegt, die Entwicklung souveräner KI-Systeme in Brasilien zu unterstützen, indem er speziell auf die lokalen Gegebenheiten zugeschnittene synthetische Daten bereitstellt.
Bestehende KI-Modelle werden oft mit überwiegend englischsprachigen Daten trainiert, was zu einer eingeschränkten Leistungsfähigkeit und kulturellen Fehlinterpretationen führen kann, wenn sie in anderen sprachlichen oder kulturellen Kontexten eingesetzt werden. Brasilien, mit seiner Bevölkerung von über 200 Millionen Menschen und einer ausgeprägten regionalen Vielfalt, ist ein prägnantes Beispiel für diese Herausforderung. Um KI-Systeme zu entwickeln, die den Bedürfnissen der brasilianischen Bevölkerung gerecht werden, sind Daten erforderlich, die die lokale Sprache, Demografie und den kulturellen Kontext genau abbilden. "Nemotron-Personas-Brazil" wurde geschaffen, um diese Lücke zu schließen und eine Grundlage für KI zu schaffen, die "im Land verankert" ist.
Der Datensatz "Nemotron-Personas-Brazil" besteht aus 6 Millionen vollständig synthetischen Personas, die in brasilianischem Portugiesisch verfasst sind. Diese Personas sind statistisch fundiert und basieren auf offiziellen Zensus- und Arbeitsmarktdaten des brasilianischen Instituts für Geografie und Statistik (IBGE). Jede Persona ist auf reale demografische, geografische und berufliche Verteilungen abgestimmt, wobei jedoch betont wird, dass keine realen Personen repräsentiert werden. Dies gewährleistet den Schutz der Privatsphäre und die Einhaltung relevanter Datenschutzbestimmungen.
Der Datensatz umfasst eine breite Palette von Attributen, darunter:
Ein zentrales Merkmal von "Nemotron-Personas-Brazil" ist die tiefe Verankerung im kulturellen Kontext Brasiliens. Die Personas sind in natürlichem brasilianischem Portugiesisch verfasst und berücksichtigen lokale Namenskonventionen, Kommunikationsstile, soziale Normen, Interessen und Lebensstile. Dies beinhaltet auch die Berücksichtigung von Lebensphasen wie Studentenstatus, Arbeitslosigkeit und Rentenalter sowie eine detaillierte Abbildung von Berufen, die über reine Berufsbezeichnungen hinausgeht und Fähigkeiten, Fachkenntnisse und Karrierewege einschließt, einschließlich Kleinstunternehmer und regionaler Handwerke.
Der Datensatz wurde nach dem Prinzip "Privacy-by-Design" entwickelt. Obwohl reale Verteilungen von Alter, Namen und Berufen aus öffentlichen Quellen verwendet werden, ist keine Information an eine reale, lebende oder verstorbene Person gebunden. Dies ermöglicht das Training an authentischen kulturellen Mustern, ohne die Privatsphäre zu gefährden.
Die Erstellung von "Nemotron-Personas-Brazil" erfolgte mittels des NVIDIA NeMo Data Designer, einem komplexen KI-System für die Generierung synthetischer Daten. Diese Pipeline unterstützt strukturierte Generierung, Validierung und Wiederholungsmechanismen, die für die Produktion großer, bevölkerungsbewusster Datensätze erforderlich sind. Zu den Schlüsselkomponenten gehören GPT-OSS-120B für die narrative Generierung in brasilianischem Portugiesisch und ein probabilistisches grafisches Modell für die statistische Fundierung.
Der Datensatz richtet sich primär an brasilianische Entwickler und Forscher, die souveräne KI-Systeme aufbauen. Er schließt Lücken, die durch die Dominanz englischsprachiger Trainingskorpora entstanden sind, und ermöglicht es, Modelle zu entwickeln, die regional geerdet, kulturell informiert und kommerziell nutzbar sind. Globale Entwickler können den Datensatz ebenfalls nutzen, um die Modellleistung und -ausrichtung in brasilianischen kulturellen und sprachlichen Kontexten zu verbessern.
Praktische Anwendungen des Datensatzes umfassen:
Die Verfügbarkeit von vielfältigen, hochwertigen Trainingsdaten, die reale Bevölkerungen widerspiegeln, ist seit langem eine Herausforderung für KI-Entwickler. Proprietäre Datensätze dominieren den Bereich der Unternehmens-KI und schaffen Barrieren für Forscher, Start-ups und Entwickler in unterrepräsentierten Regionen. "Nemotron-Personas-Brazil" trägt dazu bei, diese Barrieren zu überwinden, indem es den Zugang zu synthetischen Daten auf Unternehmensniveau demokratisiert.
Der Datensatz fördert die kulturelle Authentizität, reduziert die Abhängigkeit von westlich-zentrierten Datensätzen und unterstützt die Entwicklung souveräner KI. Er hilft, enges Training und Modellkollaps zu verhindern, indem er das gesamte Bevölkerungsspektrum Brasiliens widerspiegelt. Darüber hinaus ist er auf die Einhaltung der brasilianischen Datenschutzanforderungen und aufkommender KI-Governance-Standards ausgelegt.
Mit dieser Initiative reiht sich brasilianisches Portugiesisch in die Sprachen ein, die durch offene und strukturierte Personas-Datensätze im Rahmen des globalen NVIDIA-Programms abgedeckt werden, neben Märkten wie den Vereinigten Staaten, Japan, Indien und Singapur.
Die Veröffentlichung von "Nemotron-Personas-Brazil" stellt einen wichtigen Meilenstein in der Entwicklung von KI dar, die weltweit relevanter und gerechter ist. Durch die Bereitstellung eines offenen, kulturell authentischen und datenschutzkonformen Datensatzes ermöglicht NVIDIA in Zusammenarbeit mit WideLabs brasilianischen Entwicklern, KI-Systeme zu schaffen, die die Einzigartigkeit und Vielfalt ihrer Nation widerspiegeln. Dies trägt nicht nur zur technologischen Souveränität bei, sondern fördert auch die Entwicklung von KI-Anwendungen, die einen echten Mehrwert für die lokale Bevölkerung schaffen können.
Wenn Sie mehr über die offenen Datenprodukte von NVIDIA erfahren möchten oder an der Mitgestaltung zukünftiger Datensätze interessiert sind, können Sie der Diskussion auf NVIDIAs Discord-Server beitreten.
Bibliographie
- Nemotron-Personas-Brazil: Co-Designed Data for Sovereign AI. Hugging Face Blog. Verfügbar unter: https://huggingface.co/blog/nvidia/nemotron-personas-brazil (Zuletzt abgerufen: 28. Januar 2026). - WideLabs and Nvidia launch Nemotron Personas Brasil, a dataset for sovereign AI. BNamericas. Verfügbar unter: https://www.bnamericas.com/en/news/widelabs-and-nvidia-launch-nemotron-personas-brasil-a-dataset-for-sovereign-ai (Zuletzt abgerufen: 27. Januar 2026). - nvidia/Nemotron-Personas-Brazil · Datasets at Hugging Face. Verfügbar unter: https://huggingface.co/datasets/nvidia/Nemotron-Personas-Brazil (Zuletzt abgerufen: 26. Januar 2026). - Nemotron Personas (pt_BR) - NVIDIA NGC Catalog. Verfügbar unter: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemotron-personas/resources/nemotron-personas-dataset-pt_br (Zuletzt abgerufen: 26. Januar 2026). - Nemotron-Personas-Brazil: Co-Designed Data for Sovereign AI. Pulse.bot. Verfügbar unter: https://www.pulse.bot/ai/news/nemotron-personas-brazil-co-designed-data-for-sovereign-ai-0e3e06e7-a80c-4eb3-8e44-af31829ae497/ (Zuletzt abgerufen: 28. Januar 2026). - NVIDIA releases Nemotron-Personas-Singapore dataset to support sovereign AI development. Entelechy Asia. Verfügbar unter: https://entelechyasia.com/2026/01/28/nvidia-releases-nemotron-personas-singapore-dataset-to-support-sovereign-ai-development/ (Zuletzt abgerufen: 28. Januar 2026). - Soberana AI: Promises And Challenges For Brazil. Mondaq. Verfügbar unter: https://www.mondaq.com/brazil/new-technology/1716178/soberana-ai-promises-and-challenges-for-brazil (Zuletzt abgerufen: 10. Dezember 2025). - Nemotron-Personas-Japan: Synthesized Data for Sovereign AI. Hugging Face Blog. Verfügbar unter: https://huggingface.co/blog/nvidia/nemotron-personas-japan (Zuletzt abgerufen: 23. September 2025).Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen