Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration von Künstlicher Intelligenz in den Finanzsektor schreitet stetig voran. Insbesondere Large Language Models (LLMs) zeigen vielversprechende Fähigkeiten als autonome Agenten in der Entscheidungsfindung. Ein kürzlich vorgestelltes Benchmark-Framework namens StockBench zielt darauf ab, die Leistung von LLM-Agenten im realistischen Aktienhandel zu evaluieren. Dieser Artikel beleuchtet die Funktionsweise von StockBench, die erzielten Ergebnisse und die Implikationen für die Entwicklung von KI-gestützten Finanzlösungen.
Bisherige Benchmarks für LLM-Agenten konzentrierten sich auf Bereiche wie Softwareentwicklung oder wissenschaftliche Entdeckungen. Der Finanzbereich, trotz seiner direkten Relevanz für den wirtschaftlichen Wert und hochriskante Entscheidungen, blieb weitgehend unerforscht. Bestehende Finanz-Benchmarks testen hauptsächlich statisches Wissen durch Fragenbeantwortung, erfassen jedoch nicht die dynamische und iterative Natur des Handels. Hier setzt StockBench an, indem es eine realistische, mehrmonatige Handelsumgebung simuliert.
StockBench ist ein kontaminationsfreies Benchmark, das LLM-Agenten in einer simulierten Handelsumgebung bewertet. Die Agenten erhalten täglich Marktsignale, welche Preise, Fundamentaldaten und Nachrichten umfassen. Basierend auf diesen Informationen müssen sie sequentielle Kauf-, Verkaufs- oder Halteentscheidungen treffen. Die Leistung der Agenten wird anschließend anhand etablierter finanzwirtschaftlicher Kennzahlen beurteilt:
Für die Studie wurden die Top 20 Aktien des Dow Jones Industrial Average (DJIA) nach Gewicht als Anlageziele ausgewählt, um eine vielfältige Repräsentation über wichtige Sektoren hinweg zu gewährleisten. Der Bewertungszeitraum umfasste mehrere Monate (März bis Juni 2025) mit einem Startkapital von 100.000 US-Dollar.
Die Evaluation umfasste proprietäre Modelle wie GPT-5 und Claude-4 sowie Open-Source-Modelle wie Qwen3, Kimi-K2 und GLM-4.5. Die Ergebnisse zeigen ein differenziertes Bild:
Es zeigte sich, dass die Fähigkeit, statisches Finanzwissen abzurufen, nicht zwangsläufig in erfolgreiche Handelsstrategien übersetzt wird. Die Architektur der LLM-Agenten, die fortschrittliche Gedächtnissysteme und dynamische Risikobewertungsfähigkeiten integriert, spielt eine entscheidende Rolle für die Bewältigung komplexer Marktsituationen.
Die Studie untersuchte auch die Leistung von LLM-Agenten im Kryptowährungs- und ETF-Handel. Im Kryptowährungshandel, der hochsensibel auf Nachrichten und Finanzstimmung reagiert und signifikant kleinere Preisschwankungen aufweist, waren große Open-Source-Modelle und proprietäre Modelle erforderlich, um Handelssignale effektiv zu erfassen. Mittelgroße und kleine Open-Source-Modelle zeigten hier tendenziell eine schwächere Leistung als die Markt-Baseline.
Für ETF-Investitionen waren proprietäre Modelle mit umfassendem vortrainiertem Wissen notwendig, um als "Gehirn" der Agenten zu fungieren und robuste Argumentationsunterstützung zu bieten. Proprietäre Modelle übertrafen in dieser Aufgabe Open-Source- und finanzdomänenspezifische Modelle deutlich. Dies liegt an der Komplexität des ETF-Handels, der die Interpretation umsetzbarer Signale über verschiedene Sektoren hinweg erfordert und strategische, langfristige Entscheidungen verlangt, die auf tiefem Verständnis und Reflexion basieren.
Die Ergebnisse unterstreichen, dass die Leistung von LLMs im Aktien-, Kryptowährungs- und ETF-Handel erheblich variiert. Diese Variation spiegelt nicht nur die inhärente Komplexität der Finanzmärkte wider, sondern betont auch die Bedeutung der Modellauswahl und des Fine-Tunings. Proprietäre LLMs zeigen im Allgemeinen eine bessere Leistung im Aktienhandel aufgrund ihres starken Trainings auf verschiedenen Finanzdatensätzen, während Open-Source-Modelle, insbesondere in volatilen Umgebungen wie dem Kryptowährungshandel, Schwierigkeiten haben, diese Ergebnisse zu erzielen.
Die Effektivität von LLM-basierten Agenten hängt stark von ihrer Anpassungsfähigkeit an Marktschwankungen ab. Agenten, die fortschrittliche Gedächtnissysteme und dynamische Risikobewertungsfähigkeiten integrieren, sind besser in der Lage, komplexe Marktsituationen zu bewältigen. Dies unterstreicht den Wert komplexer architektonischer Merkmale von LLM-basierten Agenten-Frameworks bei Finanzentscheidungsaufgaben.
StockBench wird als Open-Source-Ressource veröffentlicht, um die Reproduzierbarkeit zu unterstützen und die zukünftige Forschung in diesem Bereich voranzutreiben. Zukünftige Forschungsbemühungen werden den Benchmark erweitern, indem zusätzliche Informationsmodalitäten wie Audio (z.B. Aufzeichnungen von Gewinn-Calls) und Grafiken (z.B. K-Linien, Handelscharts) integriert werden, um zu untersuchen, ob diese Datentypen die Qualität der Entscheidungsfindung verbessern können. Das zugrunde liegende Agenten-Framework von StockBench ist so konzipiert, dass es diese Modalitäten nahtlos aufnehmen kann, wodurch der erweiterte Benchmark einfach zu bedienen und skalierbar bleibt.
Aktuell konzentriert sich StockBench auf Finanzentscheidungen für Einzelwerte und berücksichtigt noch keine Multi-Asset-Aufgaben wie das Portfoliomanagement. Zudem können Urheberrechtsbeschränkungen bei Finanzdaten die Qualität der erstellten Datensätze beeinträchtigen und somit die Bewertung der Modellleistung begrenzen. Die Entwickler von StockBench betonen die Verantwortung für die Entwicklung des Benchmarks und stellen sicher, dass der öffentlich verfügbare Teil der Datensätze keine persönlichen Informationen enthält und etablierten ethischen Richtlinien entspricht. Die Daten werden unter der MIT-Lizenz geteilt, die die Einhaltung ihrer Bedingungen erfordert. StockBench ist ausschließlich für akademische und Bildungszwecke bestimmt und kein Ersatz für professionelle Beratung.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen