COIG-P: Fortschritte in der Entwicklung chinesischer Präferenzdatensätze

Kategorien:

No items found.

Freigegeben:

April 10, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

COIG-P: Ein Neuer Maßstab für Chinesische Präferenzdatensätze

Die Entwicklung großer Sprachmodelle (LLMs) schreitet rasant voran, und die Ausrichtung dieser Modelle an menschlichen Werten und Präferenzen ist entscheidend für ihren erfolgreichen Einsatz. Im Bereich der chinesischen Sprachverarbeitung gab es bisher jedoch Einschränkungen hinsichtlich der verfügbaren Datensätze für das Training solcher Modelle. Diese Lücke schließt nun COIG-P (Chinese Open Instruction Generalist - Preference), ein neuer, umfangreicher und qualitativ hochwertiger Datensatz für chinesische Präferenzen.

Herausforderungen und Lösungsansätze

Bisherige chinesische Präferenzdatensätze litten unter verschiedenen Problemen: geringer Umfang, eingeschränkte Themenvielfalt und mangelnde Validierung der Daten. Zudem war die Erstellung solcher Datensätze aufgrund des hohen Aufwands für menschliche Annotationen nur begrenzt skalierbar. COIG-P adressiert diese Herausforderungen mit einem innovativen Ansatz: einer vollständig automatisierten, LLM-basierten Pipeline zur Datensatzerstellung.

Für COIG-P wurden zunächst 92.000 hochwertige chinesische Suchanfragen gesammelt und sorgfältig gefiltert. Anschließend generierten 15 führende LLMs Antwortpaare im Chosen-Rejected-Format, wobei jeweils eine bevorzugte und eine abgelehnte Antwort präsentiert wurden. Diese Paare wurden dann automatisch bewertet, ohne menschliches Eingreifen.

Umfang und Struktur von COIG-P

COIG-P umfasst 1.009.000 chinesische Präferenzpaare, die sechs verschiedene Bereiche abdecken: Chat, Code, Mathematik, Logik, Romane und Rollenspiele. Diese breite Themenvielfalt ermöglicht ein umfassendes Training von LLMs und verbessert deren Fähigkeit, auf unterschiedliche Anfragen adäquat zu reagieren.

Das Chinesische Belohnungsmodell (CRM) und CRBench

Um den Aufwand für die Bewertung von Antwortpaaren durch LLMs zu reduzieren, entwickelten die Forscher ein 8 Milliarden Parameter großes Chinesisches Belohnungsmodell (CRM). Zusätzlich wurde ein chinesischer Belohnungs-Benchmark (CRBench) erstellt, um die Leistung des CRM zu evaluieren. Tests mit AlignBench zeigen, dass COIG-P deutlich bessere Ergebnisse liefert als andere chinesische Präferenzdatensätze und die Leistung von Modellen wie Qwen2/2.5 und Infinity-Instruct-3M-0625 um 2% bis 12% verbessert.

Evaluierung und Ergebnisse

Die Ergebnisse auf CRBench belegen die starke und robuste Bewertungsfähigkeit des CRM. In Experimenten wurde das CRM verwendet, um minderwertige Antwortpaare in einem Testdatensatz von COIG-P zu identifizieren. Dabei zeigte sich, dass das CRM in seiner Effizienz und Kosteneffektivität vergleichbar mit GPT-4o ist.

Ausblick und Bedeutung

COIG-P stellt einen wichtigen Fortschritt im Bereich der chinesischen Sprachverarbeitung dar. Der Datensatz und das zugehörige Belohnungsmodell bieten Entwicklern wertvolle Ressourcen für das Training und die Verbesserung von LLMs. Die automatisierte Erstellung von COIG-P eröffnet zudem neue Möglichkeiten für die Skalierung und Diversifizierung von Präferenzdatensätzen in der Zukunft.

Bibliographie: http://arxiv.org/abs/2504.05535 https://paperreading.club/page?id=298262 https://arxiv.org/html/2403.18058v2 https://paperswithcode.com/dataset/cvalues https://openreview.net/pdf/e952397e21e2d9cdad0d7a2e69553a59118c09d9.pdf https://www.researchgate.net/publication/389316382_Cheems_A_Practical_Guidance_for_Building_and_Evaluating_Chinese_Reward_Models_from_Scratch https://openreview.net/attachment?id=174YRjhwKc&name=pdf https://2025.naacl.org/program/accepted_papers/ https://www.researchgate.net/publication/370071108_Chinese_Open_Instruction_Generalist_A_Preliminary_Release https://aclanthology.org/2024.acl-long.853.pdf