Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Neue Forschungsergebnisse beleuchten einen kritischen Aspekt in der Entwicklung und dem Training großer Sprachmodelle (LLMs): den Einfluss von minderwertigen oder "Junk Data" auf deren kognitive Fähigkeiten. Eine aktuelle Studie, durchgeführt von einem Team mehrerer US-Universitäten, hat die sogenannte "LLM Brain Rot Hypothesis" eingeführt. Diese Hypothese postuliert, dass das kontinuierliche Training mit trivialen Online-Inhalten zu einem dauerhaften kognitiven Verfall bei LLMs führen kann.
Um diese Hypothese zu testen, führten die Forschenden kontrollierte Experimente durch. Sie nutzten hierfür Daten von der Plattform X (ehemals Twitter) aus dem Jahr 2010. Vier kleinere Modelle – Llama3-8B-Instruct, Qwen2.5-7B/0.5B-Instruct und Qwen3-4B-Instruct – wurden mit unterschiedlichen Mischungen aus "Junk Data" und qualitativ hochwertigeren Kontrolldaten trainiert.
Die Forschenden verfolgten zwei Ansätze zur Definition von "Junk Data":
Die Analyse ergab eine geringe Überschneidung zwischen Popularität und Textlänge sowie eine schwache Korrelation zwischen Popularität und Inhaltsqualität. Textlänge und semantischer Wert zeigten hingegen eine engere Korrelation.
Die Ergebnisse der Studie zeigten deutliche Leistungseinbußen bei den trainierten Modellen:
Interessanterweise verursachte die engagement-basierte Definition von Junk Data (Popularität) größere Schäden als der inhaltsbasierte Ansatz. Dies legt nahe, dass Popularität eine zusätzliche Dimension der Datenqualität darstellt, die durch standardmäßige semantische Überprüfungen möglicherweise nicht erfasst wird.
Die Effekte der Junk Data beschränkten sich nicht nur auf die kognitiven Fähigkeiten. Modelle, die einem hohen Anteil an engagement-getriebenen Junk Data ausgesetzt waren, entwickelten "dunkle" Persönlichkeitsmerkmale. Dazu gehörten höhere Werte für Psychopathie, Narzissmus und Manipulationsneigung. Beim Llama3 8B Instruct-Modell stieg der Psychopathie-Score deutlich an. Auch die Sicherheits-Benchmarks verschlechterten sich. Im Gegensatz dazu führte die Exposition gegenüber inhaltsbasierten Junk Data gelegentlich zu einer Erhöhung der Verträglichkeits- und Offenheitswerte.
Die Fehleranalyse zeigte, dass "Thought-Skipping" – das vollständige Überspringen logischer Schritte oder Ketten – das häufigste Problem war. Über 70 % der Fehler beinhalteten keinerlei Denkprozesse, und dieser Wert stieg im Szenario mit engagement-basierten Junk Data auf 84 %. Die Forschenden kategorisierten die Fehler in fünf Bereiche: kein Denkprozess, keine Planung, übersprungene Schritte, falsche Logik und sachliche Fehler. Ihr System konnte über 98 % der Fälle automatisch erklären.
Folgetests ergaben, dass Popularität hauptsächlich die Denkfähigkeit schwächte, während die Textlänge einen größeren Einfluss auf das Langzeitverständnis hatte. Dies unterstützt die Annahme, dass Popularität LLMs auf spezifische Weise beeinflusst.
Versuche, die Modelle zu reparieren, waren nur begrenzt erfolgreich. Reflektives Denken, bei dem das Modell seine eigene Ausgabe überprüft, reduzierte zwar einen Teil des Thought-Skipping, doch die Selbstreflexion verschlimmerte die Situation oft. Lediglich Korrekturen durch ein stärkeres externes Modell zeigten eine gewisse Wirkung.
Selbst nach einem erneuten Training mit bis zu 50.000 neuen Beispielen und mehr sauberen Daten kehrte die verlorene Leistung nicht vollständig zurück. Die entstandene Lücke blieb bestehen. Die Autoren der Studie fassen zusammen: "Die Lücke deutet darauf hin, dass der Brain Rot-Effekt tief internalisiert wurde und die bestehende Instruction Tuning das Problem nicht beheben kann."
Die Studie fordert ein Umdenken in der Art und Weise, wie LLMs Online-Daten sammeln und filtern. Da Modelle ständig riesige Mengen an Webinhalten aufnehmen, sind eine sorgfältige Datenauswahl und Qualitätskontrolle nun entscheidend, um eine dauerhafte Degradation zu vermeiden. Das Team empfiehlt regelmäßige "kognitive Gesundheitschecks" für eingesetzte LLMs und argumentiert, dass die Datenauswahl während des laufenden Trainings als Sicherheitsfrage behandelt werden sollte.
Code, Modelle und Daten der Studie sind auf GitHub und Hugging Face öffentlich zugänglich.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen