Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der künstlichen Intelligenz entwickelt sich rasant, und mit ihr wachsen die Anforderungen an Sicherheit und verantwortungsvollen Einsatz. In diesem Kontext hat OpenAI kürzlich eine Forschungsvorschau auf zwei neue Open-Weight-Modelle vorgestellt: gpt-oss-safeguard-120b und gpt-oss-safeguard-20b. Diese Modelle sind speziell für die Klassifizierung von Sicherheitsrisiken konzipiert und stellen eine Weiterentwicklung der bereits existierenden gpt-oss-Modelle dar. Sie sind unter der permissiven Apache 2.0 Lizenz verfügbar, was Entwicklern und Forschern die freie Nutzung, Modifikation und Implementierung ermöglicht.
Die Kerninnovation der gpt-oss-safeguard-Modelle liegt in ihrer reasoning-basierten Funktionsweise. Im Gegensatz zu herkömmlichen Klassifikatoren, die auf großen Mengen vorab gelabelter Daten trainiert werden, interpretieren diese Modelle eine vom Entwickler bereitgestellte Sicherheitsrichtlinie direkt zur Inferenzzeit. Das bedeutet, dass Entwickler ihre eigenen Richtlinien definieren und das Modell diese anwendet, um Inhalte wie Benutzernachrichten, Vervollständigungen oder ganze Chats zu klassifizieren.
Dieser Ansatz bietet eine signifikant höhere Flexibilität. Da die Richtlinie während der Inferenz bereitgestellt und nicht fest in das Modell "eingebrannt" wird, können Entwickler Richtlinien schnell und iterativ anpassen, ohne das Modell neu trainieren zu müssen. Dies ist besonders vorteilhaft in Situationen, in denen:
Ein weiteres Merkmal ist die sogenannte "Chain-of-Thought" (CoT)-Funktionalität. Diese ermöglicht es Entwicklern, die Gedankenkette des Modells nachzuvollziehen und zu verstehen, wie es zu seinen Entscheidungen gelangt ist. Diese Transparenz ist entscheidend für die Überprüfung und Anpassung von Sicherheitsrichtlinien.
OpenAI hat die gpt-oss-safeguard-Modelle sowohl auf internen als auch auf externen Datensätzen evaluiert. Die Modelle zeigten eine verbesserte Leistung bei der Anwendung mehrerer Richtlinien gleichzeitig und übertrafen dabei teilweise sogar etablierte interne Systeme in Bezug auf die Multi-Policy-Genauigkeit. Dies ist bemerkenswert, insbesondere angesichts der vergleichsweise geringen Größe der gpt-oss-safeguard-Modelle.
Die Modelle können in vielfältigen Szenarien eingesetzt werden, beispielsweise:
Entwickler erhalten eine Klassifizierung des Inhalts und die dazugehörige Begründung und können dann entscheiden, wie diese Informationen in ihren Sicherheitspipelines weiterverwendet werden.
Die gpt-oss-safeguard-Modelle sind eine offene Implementierung eines Ansatzes, den OpenAI intern unter dem Namen "Safety Reasoner" entwickelt hat. Dieser Safety Reasoner ist ein integraler Bestandteil der internen Sicherheitsstrategie von OpenAI und wird beispielsweise bei der Bewertung von Bildgenerierungen und Sora 2 eingesetzt, um unsichere Inhalte in Echtzeit zu identifizieren und zu blockieren. In einigen Fällen werden kleinere, schnellere Klassifikatoren vorgeschaltet, um relevante Inhalte vorzufiltern, die dann vom Safety Reasoner detailliert überprüft werden. Dieser mehrschichtige Ansatz, bekannt als "Defense in Depth", kombiniert das Training von Modellen auf sichere Reaktionen mit zusätzlichen Schutzebenen.
Traditionelle Sicherheitsklassifikatoren, wie sie beispielsweise über die Moderation API von OpenAI verfügbar sind, werden durch das manuelle Kuratieren Tausender von Beispielen für sichere und unsichere Inhalte unter vordefinierten Sicherheitsrichtlinien entwickelt. Diese Klassifikatoren lernen, sichere von unsicheren Ausgaben zu unterscheiden, ohne die eigentliche Sicherheitsrichtlinie direkt zu "sehen". Sie versuchen stattdessen, die zugrunde liegende Richtlinie aus den gelabelten Beispielen abzuleiten.
Während dieser traditionelle Ansatz eine hohe Leistung bei geringer Latenz und Betriebskosten bieten kann, ist das Sammeln ausreichender Trainingsbeispiele zeitaufwendig und teuer. Zudem erfordert die Aktualisierung oder Änderung einer Richtlinie ein erneutes Training des gesamten Klassifikators.
Die gpt-oss-safeguard-Modelle umgehen diese Einschränkungen durch ihren reasoning-basierten Ansatz, der eine wesentlich agilere Anpassung an neue oder sich ändernde Sicherheitsanforderungen ermöglicht.
Trotz der vielversprechenden Eigenschaften weisen die gpt-oss-safeguard-Modelle auch spezifische Limitationen auf:
Die Veröffentlichung der gpt-oss-safeguard-Modelle als Forschungsvorschau ist ein strategischer Schritt von OpenAI, um Feedback von der Forschungs- und Sicherheitsgemeinschaft zu erhalten und die Modelle weiter zu verbessern. Diese initiative unterstreicht das Engagement von OpenAI, die Sicherheit im Bereich der KI voranzutreiben und die Entwicklung offener Sicherheitstools zu fördern. Kooperationen mit Organisationen wie ROOST (Robust Open Online Safety Tools), SafetyKit und Discord haben bereits in der Testphase stattgefunden und sollen fortgesetzt werden.
Die ROOST Model Community (RMC) wird als Plattform dienen, um bewährte Verfahren für die Implementierung von Open-Source-KI-Modellen in Sicherheitsworkflows auszutauschen und so die Innovationskraft der gesamten Gemeinschaft zu nutzen. Diese Modelle sind auf Hugging Face zum Download verfügbar und sollen dazu beitragen, ein breiteres Ökosystem für KI-Sicherheit zu etablieren.
Die Bereitstellung dieser Open-Weight-Modelle markiert einen wichtigen Schritt hin zu transparenteren und anpassungsfähigeren Sicherheitslösungen in der KI. Sie ermöglichen es Unternehmen, ihre eigenen Sicherheitsrichtlinien flexibler zu gestalten und die Entscheidungsfindung der KI-Systeme besser nachzuvollziehen, was für die verantwortungsvolle Entwicklung und Implementierung von KI von großer Bedeutung ist.
Bibliography: - OpenAI. (2025, August 5). Introducing gpt-oss. Retrieved from https://openai.com/index/introducing-gpt-oss/ - OpenAI. (2025, August 5). gpt-oss-120b & gpt-oss-20b Model Card. Retrieved from https://openai.com/index/gpt-oss-model-card/ - OpenAI. (2025, October 29). Introducing gpt-oss-safeguard. Retrieved from https://openai.com/index/introducing-gpt-oss-safeguard/ - Markovic, S. (2025, October 29). OpenAI's gpt-oss-safeguard enables developers to build safer AI. Help Net Security. Retrieved from https://www.helpnetsecurity.com/2025/10/29/openai-gpt-oss-safeguard-safety-models/ - The Tech Buzz Team. (2025, October 29). OpenAI launches safety models for third-party harm detection. The Tech Buzz. Retrieved from https://www.techbuzz.ai/articles/openai-launches-safety-models-for-third-party-harm-detection - blockchain.news. (2025, October 29). OpenAI Launches GPT-OSS-Safeguard: Two Open-Weight AI Reasoning Models for Enhanced Safety Classification. Retrieved from https://blockchain.news/ainews/openai-lunches-gpt-oss-safeguard-two-open-weight-ai-reasoning-models-for-enhanced-safety-classification - Condarcuri, V. (2025, October 29). OpenAI Releases New AI Models for Online Safety. TipRanks. Retrieved from https://www.tipranks.com/news/openai-releases-new-ai-models-for-online-safety - Mao, Y., Zhang, C., Wang, J., et al. (2025, October 24). When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails. arXiv. Retrieved from https://arxiv.org/abs/2510.21285 - Zheng, J., Ji, X., Lu, Y., et al. (2025, October 24). RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards. arXiv. Retrieved from https://arxiv.org/abs/2506.07736Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen