Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die künstliche Intelligenz (KI) durchläuft eine Phase signifikanter Entwicklungen, in der die Grenzen traditioneller Architekturen zunehmend sichtbar werden. Während Large Language Models (LLMs) wie ChatGPT beeindruckende Fähigkeiten in der Texterzeugung und Sprachverarbeitung demonstriert haben, stellt sich die Frage nach ihrer Fähigkeit zu echtem, tiefgreifendem Denken. Aktuelle Forschungen lenken den Blick auf hirn-inspirierte Modelle, die eine neue Ära der KI-Entwicklung einläuten könnten.
Ein polnisches Start-up namens Pathway hat mit der Architektur "(Baby) Dragon Hatchling" (BDH) einen neuen Ansatz im Design von Sprachmodellen vorgestellt. Im Gegensatz zu den weit verbreiteten Transformer-Architekturen, die auf Skalierung von Rechenleistung und Inferenz setzen, verwendet BDH ein Netzwerk aus künstlichen Neuronen und Synapsen, das direkt von der Struktur des menschlichen Gehirns inspiriert ist. Die Entwickler betonen, dass biologische Gehirne anders funktionieren als die meisten aktuellen KI-Systeme, welche oft schwer zu interpretieren sind und deren Langzeitverhalten nur schwer vorhersehbar ist – ein entscheidender Faktor für autonome KI-Anwendungen, bei denen die Kontrolle der Systeme von größter Bedeutung ist.
Das menschliche Gehirn ist ein komplexes Netzwerk aus Milliarden von Neuronen und Billionen von Verbindungen. BDH unterscheidet sich von früheren Versuchen, Sprachmodelle mit Hirnfunktionen zu verknüpfen, indem es von festen Rechenblöcken absieht und stattdessen ein dynamisches Netzwerk nutzt, in dem künstliche Neuronen über Synapsen kommunizieren. Ein zentrales Prinzip dabei ist das "Hebbsche Lernen", oft zusammengefasst als "Neuronen, die zusammen feuern, verbinden sich". Wenn zwei Neuronen gleichzeitig aktiv sind, verstärkt sich ihre Verbindung. Dies bedeutet, dass Informationen nicht in festen Speichereinheiten, sondern in der Stärke dieser Verbindungen gespeichert werden.
Pathway bezeichnet diese lokalen Lernregeln als "Gleichungen des Denkens", die die Interaktion einzelner Neuronen beschreiben und die Grundlage für komplexe Denkprozesse innerhalb des Modells bilden.
Tests haben gezeigt, dass BDH in Sprach- und Übersetzungsaufgaben eine Leistung erzielt, die mit der von GPT-2 vergleichbar ist. Dies ist bemerkenswert, da GPT-2, obwohl mittlerweile überholt, durch seine Skalierbarkeit den Weg für spätere Durchbrüche ebnete. BDH-GPU-Modelle, die mit der gleichen Anzahl von Parametern (von 10 Millionen bis zu 1 Milliarde) und identischer Trainingszeit und Datenmenge wie Transformer-Modelle trainiert wurden, zeigten eine schnellere Lernkurve pro Datentoken und eine bessere Reduktion des Verlusts, insbesondere bei Übersetzungsaufgaben. BDH skaliert dabei, indem lediglich weitere Neuronen hinzugefügt werden, während andere Hyperparameter konstant bleiben, und erreicht dennoch die Vorhersagegenauigkeit komplexerer Modelle wie GPTXL in allen getesteten Größen.
Ein weiterer Vorteil des BDH-Designs ist ein theoretisch unbegrenztes Kontextfenster. Da Informationen in synaptischen Verbindungen und nicht in einem begrenzten Cache gespeichert werden, kann das Modell prinzipiell Texte beliebiger Länge verarbeiten. Zudem sind zu jedem Zeitpunkt nur etwa fünf Prozent der BDH-Neuronen aktiv. Diese "spärliche Aktivierung" macht das Modell effizienter und deutlich leichter interpretierbar, da sich die Konzepte oder Informationen, die das Modell verarbeitet, leichter identifizieren lassen.
Die Forschung von Pathway hat gezeigt, dass BDH "monosemantische Synapsen" bildet – Verbindungen, die auf spezifische Konzepte reagieren. In Experimenten mit Protokollen des Europäischen Parlaments reagierten bestimmte Synapsen fast ausschließlich auf Währungen oder Ländernamen. Diese Synapsen funktionierten sogar sprachübergreifend, indem dieselbe Verbindung für "Britisches Pfund" und "livre sterling" aktiv wurde. Das System entwickelt diese interpretierbaren Strukturen während des Trainings eigenständig, ohne dass eine manuelle Programmierung erforderlich ist. BDH bildet zudem auf natürliche Weise eine modulare, skalierungsfreie Netzwerkstruktur mit hoher Modularität aus – Eigenschaften, die typisch für biologische Informationsverarbeitungsprozesse im Gehirn sind.
Pathway geht davon aus, dass BDH neue Möglichkeiten in der Modellentwicklung eröffnen könnte. So konnten die Forscher des Unternehmens demonstrieren, dass sich verschiedene Sprachmodelle durch das Zusammenführen ihrer Neuronenschichten kombinieren lassen, ähnlich wie Computerprogramme miteinander verknüpft werden. Die biologische Plausibilität und Interpretierbarkeit des Modells könnten auch Auswirkungen auf die KI-Sicherheit haben. Die Studie liefert neurowissenschaftliche Belege dafür, dass Merkmale wie modulare Netzwerke, synaptische Plastizität und spärliche Aktivierung direkt aus den zugrundeliegenden Denkprozessen entstehen können.
Die Forscher argumentieren, dass die komplexen Eigenschaften des Gehirns möglicherweise nicht auf spezifische Trainingsmethoden, sondern auf die grundlegenden Anforderungen von Sprache und Denken selbst zurückzuführen sind.
Pathway betrachtet BDH als einen Schritt hin zu einer neuen Theorie, um das Verhalten großer Sprachmodelle in extremem Maßstab zu verstehen. Das ultimative Ziel ist es, mathematische Garantien für die Zuverlässigkeit von KI-Systemen über lange Zeiträume zu etablieren, ähnlich wie die Thermodynamik das Verhalten von Gasen beschreibt.
Angesichts der Verlangsamung der Fortschritte bei Sprachmodellen scheint das Feld ein Plateau erreicht zu haben. Da KI-Labore an die Grenzen der Skalierung von Daten und Rechenleistung stoßen, verlagert sich der Fokus auf Inferenz und logisches Denken. Die Transformer-Architektur wird voraussichtlich nicht so schnell verschwinden, aber es treten zunehmend hybride Systeme auf, darunter Modelle, die Transformer mit neuen Architekturen wie Mamba kombinieren.
Trotz der vielversprechenden Ansätze bleiben Herausforderungen bestehen. Die vollständige Interpretierbarkeit der internen Denkprozesse von hirn-inspirierten Modellen ist weiterhin ein offenes Forschungsfeld. Auch die Integration mit Gedächtnis- und Aufmerksamkeitsmechanismen, wie sie im menschlichen Gehirn existieren, bedarf weiterer Erforschung. Nichtsdestotrotz stellt die Entwicklung von Modellen wie BDH einen wichtigen Schritt dar, um die Leistungsfähigkeit und das Verständnis von KI-Systemen zu verbessern und sie näher an die Effizienz und Komplexität des menschlichen Gehirns heranzuführen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen