Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der Sprachmodelle (LLMs). Diese Modelle, die auf riesigen Datenmengen trainiert werden, können menschenähnlichen Text generieren, Fragen beantworten und komplexe Aufgaben ausführen. Ein Problem, das LLMs jedoch noch immer plagt, sind Halluzinationen - die Generierung von plausibel klingendem, aber sachlich falschem Text.
Aktuelle Forschungsergebnisse deuten darauf hin, dass eine der Hauptursachen für Halluzinationen in LLMs die sogenannte Wissensinkonsistenz ist. Diese tritt auf, wenn das Wissen, das ein LLM während des Vortrainings auf einem riesigen Datensatz erlangt hat, nicht mit dem Wissen übereinstimmt, das ihm während des Finetunings auf einem spezialisierten Datensatz für eine bestimmte Aufgabe vermittelt wird.
Ein Beispiel: Ein LLM wird zunächst auf einem riesigen Textkorpus vortrainiert, der Informationen über eine Vielzahl von Themen enthält, darunter auch die Geschichte des Zweiten Weltkriegs. Anschließend wird das Modell auf einem kleineren Datensatz feinabgestimmt, der sich auf die Geschichte der Luftfahrt konzentriert. Dieser Datensatz enthält jedoch möglicherweise widersprüchliche Informationen über den Zweiten Weltkrieg, beispielsweise über die Rolle bestimmter Flugzeugtypen. Diese Inkonsistenz kann dazu führen, dass das LLM bei Fragen zum Zweiten Weltkrieg falsche oder widersprüchliche Antworten generiert.
Um dieses Problem anzugehen, haben Forscher eine neue Feinabstimmungsstrategie namens "Prereq-Tune" entwickelt. Im Wesentlichen trennt Prereq-Tune das Erlernen von Fähigkeiten und Wissen, sodass das Modell nur die für eine Aufgabe erforderlichen Fähigkeiten erlernt, ohne von der Wissensinkonsistenz beeinflusst zu werden.
Dies wird durch eine zusätzliche Lernphase erreicht, die vor dem eigentlichen Finetuning stattfindet. In dieser "Prerequisite Learning"-Phase wird dem LLM das notwendige Wissen für die spezifische Aufgabe vermittelt. So kann sich das Modell während des eigentlichen Finetunings auf das Erlernen der Aufgabenfertigkeiten konzentrieren, ohne durch widersprüchliche Informationen verwirrt zu werden.
Prereq-Tune kann mit fiktiven synthetischen Daten kombiniert werden, um die interne Wissensgrundlage des LLMs zu verbessern und die Ergebnisse besser an das bereits vorhandene Wissen zu binden. Synthetische Daten sind künstlich generierte Daten, die die Eigenschaften realer Daten nachahmen. Im Kontext von Prereq-Tune könnten synthetische Daten verwendet werden, um dem LLM in der Prerequisite Learning-Phase zusätzliches Wissen zu vermitteln, das auf dem spezifischen Wissen des Vortrainingsdatensatzes basiert.
Beispielsweise könnte man synthetische Texte generieren, die die Geschichte des Zweiten Weltkriegs aus der Perspektive eines Piloten erzählen, der in der Luftwaffe diente. Diese Texte könnten dann verwendet werden, um das LLM in der Prerequisite Learning-Phase mit spezifischem Wissen über die Rolle von Flugzeugen im Zweiten Weltkrieg zu versorgen.
Erste Experimente zeigen, dass Prereq-Tune die Faktengenauigkeit von LLMs in verschiedenen Aufgaben, wie z. B. der Beantwortung von Fragen und der Generierung von Langtexten, deutlich verbessert. Die Kombination von Prereq-Tune mit fiktiven synthetischen Daten eröffnet neue Möglichkeiten für die Generierung von Text, der besser kontrolliert und an das interne Wissen des Modells gebunden ist.
Obwohl Prereq-Tune vielversprechend ist, ist es wichtig zu beachten, dass die Generierung von qualitativ hochwertigen synthetischen Daten eine Herausforderung darstellt. Die synthetischen Daten müssen realistisch, konsistent und frei von Verzerrungen sein, um die Leistung des LLMs nicht negativ zu beeinflussen. Zukünftige Forschung wird sich auf die Entwicklung robusterer Methoden zur Generierung und Bewertung synthetischer Daten konzentrieren müssen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen