KI für Ihr Unternehmen – Jetzt Demo buchen

Fortschritte in der KI-Forschung durch das Think in Games Framework von Tencent

Kategorien:
No items found.
Freigegeben:
October 6, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Tencent-Forscher haben das Framework "Think in Games" (TiG) entwickelt, um KIs strategisches Denken und erklärbare Entscheidungen im MOBA-Spiel "Honor of Kings" beizubringen.
    • Kleinere Sprachmodelle wie Qwen3-14B übertrafen mit dieser Methode größere Modelle wie Deepseek-R1 bei der Auswahl korrekter strategischer Spielzüge und erreichten eine Trefferquote von bis zu 90,91 Prozent.
    • Die trainierten KIs behielten ihre ursprünglichen Fähigkeiten im Textverständnis und in der Problemlösung bei, jedoch hängen die Ergebnisse von der Modellqualität ab, und die Übertragbarkeit der Methode auf andere Aufgaben kann begrenzt sein.

    Die Forschung im Bereich der Künstlichen Intelligenz (KI) schreitet kontinuierlich voran, insbesondere in der Fähigkeit von Systemen, komplexe Strategien zu verstehen und zu formulieren. Ein aktuelles Projekt von Tencent, das sich auf das populäre mobile MOBA-Spiel "Honor of Kings" konzentriert, beleuchtet diese Entwicklung. Die Forscher haben ein innovatives Framework namens "Think in Games" (TiG) entwickelt, das darauf abzielt, KI-Modellen nicht nur das Spielen beizubringen, sondern auch ihre strategischen Entscheidungen zu erklären. Diese Initiative könnte weitreichende Implikationen jenseits der Gaming-Welt haben.

    Die Herausforderung: Strategisches Denken und Erklärbarkeit in der KI

    Bestehende KI-Agenten zeigen oft eine hohe Leistungsfähigkeit in Spielen, können aber ihre Entscheidungen selten nachvollziehbar darlegen. Sprachmodelle hingegen sind in der Lage, Strategien zu diskutieren, haben jedoch Schwierigkeiten bei der direkten Anwendung im Spiel. Das TiG-Framework von Tencent wurde konzipiert, um diese Lücke zu schließen. Es kombiniert die Fähigkeit zur Ausführung von Aktionen mit der Generierung von Erklärungen für diese Aktionen, was einen wichtigen Schritt in Richtung verständlicherer und vertrauenswürdigerer KI-Systeme darstellt.

    Trainingsmethodik und Datengrundlage

    Für die Experimente nutzten die Forscher "Honor of Kings", ein Mobile-MOBA, das komplexe, teambasierte Strategien erfordert. In diesem Spiel treten zwei Teams mit jeweils fünf Spielern an, um Türme zu zerstören und Ressourcen zu kontrollieren. Das Team definierte 40 Makro-Aktionen, wie zum Beispiel "Top-Lane pushen", "Drachen sichern" oder "Basis verteidigen". Die KI musste in einer gegebenen Situation den optimalen Zug auswählen und ihre Begründung dafür liefern.

    Zwei Phasen des Lernens

    Die Modelle wurden mit anonymisierten Aufzeichnungen realer Matches trainiert, wobei sowohl gewonnene als auch verlorene Spiele berücksichtigt wurden. Die Daten wurden standardisiert und jede Bewegung mit einer spezifischen Makro-Aktion versehen. Das Training erfolgte in zwei Phasen:

    • Supervised Learning: Zunächst wurden der KI grundlegende Spielmechaniken durch überwachtes Lernen vermittelt.
    • Reinforcement Learning: Anschließend verfeinerte die KI ihre Strategie durch verstärkendes Lernen. Ein Belohnungssystem vergab einen Punkt für einen korrekten Zug und null Punkte für einen inkorrekten Zug.

    Überraschende Ergebnisse: Kleinere Modelle übertreffen größere

    Die Forscher testeten verschiedene Sprachmodelle, darunter Qwen2.5 mit 7, 14 und 32 Milliarden Parametern sowie das neuere Qwen3-14B. Zum Vergleich wurde auch Deepseek-R1, ein wesentlich größeres Modell, einbezogen. Die angewandte Methode umfasste zwei Schritte:

    • Daten-Destillation: Zuerst wurden Trainingsdaten von Deepseek-R1 destilliert, das bereits eine starke Leistung in Spielen zeigte.
    • Group Relative Policy Optimization (GRPO): Anschließend wurde GRPO angewendet, eine Technik, die Modelle durch den Vergleich mehrerer generierter Antworten verfeinert. GRPO normalisiert Belohnungen über Antwortgruppen hinweg und berechnet relative Vorteile, was zur Stabilisierung des Lernprozesses beiträgt.

    Die Ergebnisse zeigten, dass Qwen3-14B nach 2.000 Trainingsschritten mit überwachtem Lernen und GRPO eine Trefferquote von 90,91 Prozent bei der Auswahl korrekter strategischer Entscheidungen erreichte. Dies übertraf Deepseek-R1, das 86,67 Prozent erzielte. GRPO verbesserte die Modellgenauigkeit erheblich: Qwen-2.5-32B stieg von 66,67 auf 86,84 Prozent, und Qwen-2.5-14B verbesserte sich nach beiden Phasen von 53,25 auf 83,12 Prozent.

    Erklärbare KI-Entscheidungen und breitere Anwendungsbereiche

    Ein wesentlicher Aspekt des TiG-Frameworks ist die Fähigkeit der trainierten Systeme, ihre Entscheidungen zu erklären. Beispielsweise konnte die KI einen schwachen Turm als Ziel identifizieren und vor möglichen Hinterhalten durch gegnerische Spieler warnen. Bemerkenswert ist auch, dass die auf "Honor of Kings" trainierten Modelle ihre Fähigkeiten im Textverständnis, der Lösung mathematischer Probleme und der Beantwortung allgemeiner Fragen beibehielten.

    Das Forschungsteam sieht potenzielle Anwendungen dieses Frameworks über Spiele hinaus, in Bereichen, die sowohl strategisches Denken als auch klare Erklärungen erfordern. Es wird jedoch darauf hingewiesen, dass die Ergebnisse von der Qualität der zugrunde liegenden Sprachmodelle abhängen und die Übertragbarkeit des Ansatzes auf andere Domänen noch nicht abschließend geklärt ist.

    Ein breiterer Trend in der KI-Forschung

    Die Arbeit von Tencent reiht sich in einen breiteren Trend in der KI-Forschung ein. Projekte wie Googles "Game Arena", eine offene Plattform für den Wettbewerb fortschrittlicher Modelle in Spielen, oder ROCKET-1, ein hierarchischer Agent in Minecraft, der einfache Aufgaben mit hoher Erfolgsquote löst, zeigen die zunehmende Nutzung realer Spieldaten als Trainingsgrundlage und Benchmark für KI-Systeme.

    Diese Entwicklungen unterstreichen das Potenzial von Spielen als ideale Testumgebung für die Entwicklung komplexer KI-Fähigkeiten, die weit über das Gaming hinaus Anwendung finden könnten. Die Fähigkeit, strategische Entscheidungen zu treffen und diese verständlich zu machen, ist ein entscheidender Schritt für die Integration von KI in immer anspruchsvollere Geschäftsprozesse und Anwendungen.

    Fazit

    Tencents "Think in Games"-Framework demonstriert einen vielversprechenden Ansatz zur Entwicklung von KI-Systemen, die nicht nur leistungsfähig sind, sondern auch ihre strategischen Entscheidungen transparent machen können. Die Fähigkeit, mit kleineren Modellen größere zu übertreffen und gleichzeitig Erklärbarkeit zu gewährleisten, ist ein bedeutender Fortschritt. Diese Erkenntnisse könnten zukünftig dazu beitragen, KI-Anwendungen in verschiedenen Branchen, die strategisches Denken und nachvollziehbare Entscheidungen erfordern, zu verbessern.

    Bibliographie

    • The Decoder. (2025, 4. Oktober). Tencent trains AI that can explain and execute game strategies in Honor of Kings. Abrufbar unter: https://the-decoder.com/tencent-trains-ai-that-can-explain-and-execute-game-strategies-in-honor-of-kings/
    • LinkedIn. (n.d.). THE DECODER - EVERYTHING AI’s Post. Abrufbar unter: https://www.linkedin.com/posts/the-decoder-en_tencent-trains-ai-that-can-explain-and-execute-activity-7380189570115719168-eCd3
    • TechNode. (2025, 4. Oktober). Tencent Tests New Framework That Trains AI Models to Think Strategically Through Gaming. Abrufbar unter: https://technode.com/2025/10/04/tencent-tests-new-framework-that-trains-ai-models-to-think-strategically-through-gaming/
    • GamingonPhone. (n.d.). How Tencent’s AI beats over 99% of players. Abrufbar unter: https://gamingonphone.com/miscellaneous/how-tencents-ai-beats-over-99-of-players/
    • GitHub. (n.d.). tencent-ailab/hok_env: Honor of Kings AI Open Environment of Tencent(腾讯王者荣耀AI开放环境). Abrufbar unter: https://github.com/tencent-ailab/hok_env
    • Yelbee. (n.d.). A Macro Strategy Model for AI to master MOBA Game Arena of Valor. Abrufbar unter: http://www.yelbee.top/index.php/archives/175/
    • BitTopup. (n.d.). Honor of Kings Fair Play or Hidden Algorithms? The Truth Behind Matchmaking Controversy. Abrufbar unter: https://bittopup.com/article/Honor-of-Kings-Fair-Play-or-Hidden-Algorithms-The-Truth-Behind-Matchmaking-Controversy
    • GDC Vault. (n.d.). Tencent Game AI: The Techniques and Applications of WukongAI in MOBA Game (Presented by Tencent AI Lab). Abrufbar unter: https://www.gdcvault.com/play/1027504/Tencent-Game-AI-The-Techniques
    • Tencent. (n.d.). Why Honor of Kings is the Ideal Competition Arena for AI Research and Development. Abrufbar unter: https://www.tencent.com/en-us/articles/2201392.html
    • Tencent. (n.d.). Tencent Games Brings Innovative Game Technologies to GDC 2025. Abrufbar unter: https://www.tencent.com/en-us/articles/2202036.html

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen