KI für Ihr Unternehmen – Jetzt Demo buchen

Neue Open-Weight-Modelle von OpenAI für Sicherheitsklassifikation vorgestellt

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • OpenAI hat zwei neue Open-Weight-Modelle, gpt-oss-safeguard-120b und gpt-oss-safeguard-20b, als Forschungsvorschau veröffentlicht.
    • Diese Modelle sind für Sicherheitsklassifizierungsaufgaben konzipiert und ermöglichen die Anwendung benutzerdefinierter Sicherheitsrichtlinien.
    • Sie nutzen eine reasoning-basierte Methode, die es Entwicklern erlaubt, Richtlinien dynamisch anzupassen und die Entscheidungsfindung des Modells nachzuvollziehen.
    • Die gpt-oss-safeguard-Modelle zeigen eine verbesserte Leistung bei der Richtlinienanwendung im Vergleich zu traditionellen Klassifikatoren, insbesondere bei sich schnell entwickelnden oder nuancierten Bedrohungen.
    • Obwohl die Modelle flexibel sind, können sie rechenintensiv sein und in einigen Szenarien von dedizierten, auf großen Datensätzen trainierten Klassifikatoren übertroffen werden.
    • Die Veröffentlichung unter Apache 2.0 Lizenz fördert die Zusammenarbeit in der Sicherheitsforschung und -entwicklung im Bereich KI.

    Die Landschaft der künstlichen Intelligenz entwickelt sich rasant, und mit ihr wachsen die Anforderungen an Sicherheit und verantwortungsvollen Einsatz. In diesem Kontext hat OpenAI kürzlich eine Forschungsvorschau auf zwei neue Open-Weight-Modelle vorgestellt: gpt-oss-safeguard-120b und gpt-oss-safeguard-20b. Diese Modelle sind speziell für die Klassifizierung von Sicherheitsrisiken konzipiert und stellen eine Weiterentwicklung der bereits existierenden gpt-oss-Modelle dar. Sie sind unter der permissiven Apache 2.0 Lizenz verfügbar, was Entwicklern und Forschern die freie Nutzung, Modifikation und Implementierung ermöglicht.

    Innovative Ansätze zur Sicherheitsklassifikation

    Die Kerninnovation der gpt-oss-safeguard-Modelle liegt in ihrer reasoning-basierten Funktionsweise. Im Gegensatz zu herkömmlichen Klassifikatoren, die auf großen Mengen vorab gelabelter Daten trainiert werden, interpretieren diese Modelle eine vom Entwickler bereitgestellte Sicherheitsrichtlinie direkt zur Inferenzzeit. Das bedeutet, dass Entwickler ihre eigenen Richtlinien definieren und das Modell diese anwendet, um Inhalte wie Benutzernachrichten, Vervollständigungen oder ganze Chats zu klassifizieren.

    Flexibilität durch Reasoning

    Dieser Ansatz bietet eine signifikant höhere Flexibilität. Da die Richtlinie während der Inferenz bereitgestellt und nicht fest in das Modell "eingebrannt" wird, können Entwickler Richtlinien schnell und iterativ anpassen, ohne das Modell neu trainieren zu müssen. Dies ist besonders vorteilhaft in Situationen, in denen:

    • Potenzielle Bedrohungen neuartig oder sich schnell entwickelnd sind.
    • Der Anwendungsbereich sehr nuanciert ist und von kleineren Klassifikatoren schwer zu handhaben wäre.
    • Nicht genügend gelabelte Beispiele zur Verfügung stehen, um für jedes Risiko einen hochwertigen Klassifikator zu trainieren.
    • Die Qualität und Erklärbarkeit der Klassifizierung wichtiger ist als eine extrem niedrige Latenz.

    Ein weiteres Merkmal ist die sogenannte "Chain-of-Thought" (CoT)-Funktionalität. Diese ermöglicht es Entwicklern, die Gedankenkette des Modells nachzuvollziehen und zu verstehen, wie es zu seinen Entscheidungen gelangt ist. Diese Transparenz ist entscheidend für die Überprüfung und Anpassung von Sicherheitsrichtlinien.

    Leistung und Anwendungsbereiche

    OpenAI hat die gpt-oss-safeguard-Modelle sowohl auf internen als auch auf externen Datensätzen evaluiert. Die Modelle zeigten eine verbesserte Leistung bei der Anwendung mehrerer Richtlinien gleichzeitig und übertrafen dabei teilweise sogar etablierte interne Systeme in Bezug auf die Multi-Policy-Genauigkeit. Dies ist bemerkenswert, insbesondere angesichts der vergleichsweise geringen Größe der gpt-oss-safeguard-Modelle.

    Praktische Anwendungsszenarien

    Die Modelle können in vielfältigen Szenarien eingesetzt werden, beispielsweise:

    • In Diskussionsforen für Videospiele, um Beiträge über Cheating zu identifizieren.
    • Auf Produktbewertungsseiten, um mutmaßlich gefälschte Bewertungen herauszufiltern.
    • Zur allgemeinen Moderation von Inhalten, um schädliche oder unerwünschte Inhalte gemäß den Plattformrichtlinien zu kennzeichnen.

    Entwickler erhalten eine Klassifizierung des Inhalts und die dazugehörige Begründung und können dann entscheiden, wie diese Informationen in ihren Sicherheitspipelines weiterverwendet werden.

    Integration in bestehende Sicherheitsarchitekturen

    Die gpt-oss-safeguard-Modelle sind eine offene Implementierung eines Ansatzes, den OpenAI intern unter dem Namen "Safety Reasoner" entwickelt hat. Dieser Safety Reasoner ist ein integraler Bestandteil der internen Sicherheitsstrategie von OpenAI und wird beispielsweise bei der Bewertung von Bildgenerierungen und Sora 2 eingesetzt, um unsichere Inhalte in Echtzeit zu identifizieren und zu blockieren. In einigen Fällen werden kleinere, schnellere Klassifikatoren vorgeschaltet, um relevante Inhalte vorzufiltern, die dann vom Safety Reasoner detailliert überprüft werden. Dieser mehrschichtige Ansatz, bekannt als "Defense in Depth", kombiniert das Training von Modellen auf sichere Reaktionen mit zusätzlichen Schutzebenen.

    Unterschied zu traditionellen Klassifikatoren

    Traditionelle Sicherheitsklassifikatoren, wie sie beispielsweise über die Moderation API von OpenAI verfügbar sind, werden durch das manuelle Kuratieren Tausender von Beispielen für sichere und unsichere Inhalte unter vordefinierten Sicherheitsrichtlinien entwickelt. Diese Klassifikatoren lernen, sichere von unsicheren Ausgaben zu unterscheiden, ohne die eigentliche Sicherheitsrichtlinie direkt zu "sehen". Sie versuchen stattdessen, die zugrunde liegende Richtlinie aus den gelabelten Beispielen abzuleiten.

    Während dieser traditionelle Ansatz eine hohe Leistung bei geringer Latenz und Betriebskosten bieten kann, ist das Sammeln ausreichender Trainingsbeispiele zeitaufwendig und teuer. Zudem erfordert die Aktualisierung oder Änderung einer Richtlinie ein erneutes Training des gesamten Klassifikators.

    Die gpt-oss-safeguard-Modelle umgehen diese Einschränkungen durch ihren reasoning-basierten Ansatz, der eine wesentlich agilere Anpassung an neue oder sich ändernde Sicherheitsanforderungen ermöglicht.

    Herausforderungen und Grenzen

    Trotz der vielversprechenden Eigenschaften weisen die gpt-oss-safeguard-Modelle auch spezifische Limitationen auf:

    • Leistungsunterschiede bei komplexen Risiken: Klassifikatoren, die auf Zehntausenden hochwertiger gelabelter Beispiele trainiert wurden, können in bestimmten Fällen immer noch eine bessere Leistung erzielen, insbesondere bei der Klassifizierung komplexer oder sehr nuancierter Risiken. Für Anwendungen, die höchste Präzision erfordern, könnte ein dedizierter Klassifikator weiterhin die bevorzugte Wahl sein.
    • Ressourcenintensität: Der reasoning-basierte Ansatz kann zeit- und rechenintensiv sein. Dies erschwert die Skalierung über alle Plattforminhalte hinweg, insbesondere in Echtzeitanwendungen. Intern begegnet OpenAI dieser Herausforderung durch eine Kombination aus kleineren, schnelleren Klassifikatoren zur Vorfilterung von Inhalten und der asynchronen Nutzung des Safety Reasoners bei gleichzeitiger Aufrechterhaltung der Interventionsfähigkeit bei der Erkennung unsicherer Inhalte.

    Ausblick und Community-Zusammenarbeit

    Die Veröffentlichung der gpt-oss-safeguard-Modelle als Forschungsvorschau ist ein strategischer Schritt von OpenAI, um Feedback von der Forschungs- und Sicherheitsgemeinschaft zu erhalten und die Modelle weiter zu verbessern. Diese initiative unterstreicht das Engagement von OpenAI, die Sicherheit im Bereich der KI voranzutreiben und die Entwicklung offener Sicherheitstools zu fördern. Kooperationen mit Organisationen wie ROOST (Robust Open Online Safety Tools), SafetyKit und Discord haben bereits in der Testphase stattgefunden und sollen fortgesetzt werden.

    Die ROOST Model Community (RMC) wird als Plattform dienen, um bewährte Verfahren für die Implementierung von Open-Source-KI-Modellen in Sicherheitsworkflows auszutauschen und so die Innovationskraft der gesamten Gemeinschaft zu nutzen. Diese Modelle sind auf Hugging Face zum Download verfügbar und sollen dazu beitragen, ein breiteres Ökosystem für KI-Sicherheit zu etablieren.

    Die Bereitstellung dieser Open-Weight-Modelle markiert einen wichtigen Schritt hin zu transparenteren und anpassungsfähigeren Sicherheitslösungen in der KI. Sie ermöglichen es Unternehmen, ihre eigenen Sicherheitsrichtlinien flexibler zu gestalten und die Entscheidungsfindung der KI-Systeme besser nachzuvollziehen, was für die verantwortungsvolle Entwicklung und Implementierung von KI von großer Bedeutung ist.

    Bibliography: - OpenAI. (2025, August 5). Introducing gpt-oss. Retrieved from https://openai.com/index/introducing-gpt-oss/ - OpenAI. (2025, August 5). gpt-oss-120b & gpt-oss-20b Model Card. Retrieved from https://openai.com/index/gpt-oss-model-card/ - OpenAI. (2025, October 29). Introducing gpt-oss-safeguard. Retrieved from https://openai.com/index/introducing-gpt-oss-safeguard/ - Markovic, S. (2025, October 29). OpenAI's gpt-oss-safeguard enables developers to build safer AI. Help Net Security. Retrieved from https://www.helpnetsecurity.com/2025/10/29/openai-gpt-oss-safeguard-safety-models/ - The Tech Buzz Team. (2025, October 29). OpenAI launches safety models for third-party harm detection. The Tech Buzz. Retrieved from https://www.techbuzz.ai/articles/openai-launches-safety-models-for-third-party-harm-detection - blockchain.news. (2025, October 29). OpenAI Launches GPT-OSS-Safeguard: Two Open-Weight AI Reasoning Models for Enhanced Safety Classification. Retrieved from https://blockchain.news/ainews/openai-lunches-gpt-oss-safeguard-two-open-weight-ai-reasoning-models-for-enhanced-safety-classification - Condarcuri, V. (2025, October 29). OpenAI Releases New AI Models for Online Safety. TipRanks. Retrieved from https://www.tipranks.com/news/openai-releases-new-ai-models-for-online-safety - Mao, Y., Zhang, C., Wang, J., et al. (2025, October 24). When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails. arXiv. Retrieved from https://arxiv.org/abs/2510.21285 - Zheng, J., Ji, X., Lu, Y., et al. (2025, October 24). RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards. arXiv. Retrieved from https://arxiv.org/abs/2506.07736

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen