Mindverse
News

Neuerungen in der KI-Forschung: Vom Memorieren zur Optimierung neuronaler Netze

April 1, 2024
Im Zuge der fortlaufenden Erforschung und Entwicklung künstlicher Intelligenz (KI) werden stetig neue Erkenntnisse über das Verhalten und die Optimierung von neuronalen Netzen gewonnen. Eine der jüngsten Entdeckungen betrifft das Muster und die Gradienten in den verschiedenen Schichten von KI-Modellen, insbesondere beim Lernen und Memorieren von Textabschnitten. Künstliche neuronale Netze, die für Aufgaben wie Texterkennung, Bildanalyse oder Sprachverarbeitung eingesetzt werden, müssen während ihres Trainings eine große Menge an Daten verarbeiten. Dabei passiert es, dass sie bestimmte Beispiele aus den Trainingsdaten 'memorisieren'. Das bedeutet, sie lernen diese Beispiele auswendig, anstatt die zugrundeliegenden Muster zu erkennen, die eine Generalisierung auf neue, unbekannte Daten ermöglichen würden. Dieses Phänomen kann zu einer schlechten Leistung des Netzwerks auf realen Daten führen, da es überangepasst ist und nur auf die Trainingsbeispiele reagiert. Forscher haben nun herausgefunden, dass die Gradienten von memorisierten Textabschnitten ein erkennbares räumliches Muster aufweisen, das sich von denen nicht-memorisierter Beispiele unterscheidet. Gradienten sind im Wesentlichen die Richtungen, in die ein neuronales Netzwerk während des Trainings angepasst wird, um den Fehler zwischen seinen Vorhersagen und den tatsächlichen Ergebnissen zu minimieren. Es wurde festgestellt, dass diese Gradienten in den unteren Modellschichten größer sind als die Gradienten von Nicht-Memorierungsbeispielen. Diese Erkenntnis bietet einen potenziellen Ansatz, um das Überlernen oder Memorieren zu bekämpfen. Durch Feinabstimmung, auch bekannt als Fine-Tuning, der Gewichte mit hohen Gradienten, können die memorisierten Beispiele 'verlernt' werden. Das bedeutet, dass das neuronale Netzwerk so angepasst wird, dass es die spezifischen, auswendig gelernten Beispiele vergisst und stattdessen besser generalisiert. Dies stellt einen wichtigen Schritt in Richtung effizienterer und effektiverer KI-Modelle dar, die in der Lage sind, neue Aufgaben ohne umfangreiches Neulernen zu bewältigen. Neue Methoden wurden vorgeschlagen, um diese Herausforderung anzugehen, darunter Ansätze für die robuste Mittelwertberechnung, um schwache Gradientenrichtungen zu unterdrücken. Ein Beispiel hierfür ist die Koordinatenbasierte Median-of-Means-Methode, die eine Minibatch in drei Gruppen aufteilt und den Median berechnet. Ein weiterer Ansatz, RM3, nutzt Gradienten aus vorherigen Zeitschritten, um den Median effizienter zu berechnen. Diese Methoden zielen darauf ab, schwache Gradientenrichtungen zu unterdrücken, ohne Gradienten für jedes Beispiel einzeln berechnen zu müssen, was die Skalierbarkeit verbessert. Experimente haben gezeigt, dass diese Methoden tatsächlich das Überfitting und somit das Memorieren deutlich reduzieren können. Zudem bieten sie überzeugende Beweise dafür, dass die sogenannte Coherent Gradients Hypothesis (CGH) auch bei großen Modellen und Datensätzen Bestand hat. CGH postuliert, dass überparametrisierte neuronale Netze, die mit Gradientenabstieg trainiert werden, gut generalisieren können, da der Gesamtgradient für einen einzelnen Trainingsschritt am stärksten in Richtungen ist, die den Verlust bei mehreren Beispielen reduzieren, wenn solche Richtungen existieren. Darüber hinaus wurde eine neue Methode getestet, die unabhängig von der Hinzufügung von Rauschen zu Trainingslabels oder der Unterdrückung schwacher Gradientenrichtungen ist. Diese Methode nutzt die Intuition hinter CGH und geht davon aus, dass die Beispiele, die früh im Trainingsprozess gelernt werden (die 'leichten' Beispiele), genau diejenigen sind, die mehr mit anderen Trainingsbeispielen gemeinsam haben. Daher sollten gemäß CGH die leichten Beispiele besser untereinander generalisieren als die schweren Beispiele untereinander. Diese Hypothese wurde in detaillierten Experimenten validiert und liefert weitere stützende Beweise für CGH. Die Forschung in diesem Bereich ist von großer Bedeutung für die Entwicklung von KI-Systemen, die in der Lage sind, komplexe Aufgaben effizient und zuverlässig zu bewältigen. Mindverse, als führendes deutsches KI-Unternehmen, verfolgt diese Entwicklungen mit großem Interesse, da sie direkte Auswirkungen auf die Entwicklung von hochwertigen, maßgeschneiderten Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssystemen und vielem mehr haben könnten. Bibliographie: 1. Piotr Zielinski, Shankar Krishnan, Satrajit Chatterjee, "Weak and Strong Gradient Directions: Explaining Memorization, Generalization, and Hardness of Examples at Scale", arXiv:2003.07422 [cs.LG], https://doi.org/10.48550/arXiv.2003.07422. 2. Weitere Informationen und Forschungsergebnisse wurden aus direkten Kommunikationsquellen und Tweets von Forschern wie @_akhaliq entnommen.