KI für Ihr Unternehmen – Jetzt Demo buchen

StockBench als neue Bewertungsgrundlage für KI-gestützte Handelsstrategien im Finanzsektor

Kategorien:
No items found.
Freigegeben:
October 6, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Das neue StockBench-Framework evaluiert die Fähigkeit von Large Language Models (LLMs), profitable Handelsentscheidungen an realen Aktienmärkten zu treffen.
    • LLM-Agenten erhalten tägliche Marktsignale wie Preise, Fundamentaldaten und Nachrichten, um Kauf-, Verkaufs- oder Halteentscheidungen zu treffen.
    • Die Leistung wird anhand finanzwirtschaftlicher Kennzahlen wie kumulierter Rendite, maximalem Drawdown und Sortino-Verhältnis bewertet.
    • Proprietäre LLMs zeigen in der Regel bessere und konsistentere Ergebnisse als Open-Source-Modelle, insbesondere in komplexen Marktumfeldern.
    • Die Größe der LLM-Parameter korreliert positiv mit der Qualität und Robustheit der Finanzentscheidungen.
    • StockBench ist als Open-Source-Ressource verfügbar, um die Reproduzierbarkeit zu fördern und die Forschung in diesem Bereich voranzutreiben.

    StockBench: Eine neue Benchmark für LLM-basierte Finanzagenten im Aktienhandel

    Die Integration von Künstlicher Intelligenz in den Finanzsektor schreitet stetig voran. Insbesondere Large Language Models (LLMs) zeigen vielversprechende Fähigkeiten als autonome Agenten in der Entscheidungsfindung. Ein kürzlich vorgestelltes Benchmark-Framework namens StockBench zielt darauf ab, die Leistung von LLM-Agenten im realistischen Aktienhandel zu evaluieren. Dieser Artikel beleuchtet die Funktionsweise von StockBench, die erzielten Ergebnisse und die Implikationen für die Entwicklung von KI-gestützten Finanzlösungen.

    Die Herausforderung der LLM-Evaluation im Finanzbereich

    Bisherige Benchmarks für LLM-Agenten konzentrierten sich auf Bereiche wie Softwareentwicklung oder wissenschaftliche Entdeckungen. Der Finanzbereich, trotz seiner direkten Relevanz für den wirtschaftlichen Wert und hochriskante Entscheidungen, blieb weitgehend unerforscht. Bestehende Finanz-Benchmarks testen hauptsächlich statisches Wissen durch Fragenbeantwortung, erfassen jedoch nicht die dynamische und iterative Natur des Handels. Hier setzt StockBench an, indem es eine realistische, mehrmonatige Handelsumgebung simuliert.

    Aufbau und Funktionsweise von StockBench

    StockBench ist ein kontaminationsfreies Benchmark, das LLM-Agenten in einer simulierten Handelsumgebung bewertet. Die Agenten erhalten täglich Marktsignale, welche Preise, Fundamentaldaten und Nachrichten umfassen. Basierend auf diesen Informationen müssen sie sequentielle Kauf-, Verkaufs- oder Halteentscheidungen treffen. Die Leistung der Agenten wird anschließend anhand etablierter finanzwirtschaftlicher Kennzahlen beurteilt:

    • Kumulierte Rendite (Cumulative Return, CR): Misst die Gesamtveränderung des Anlagewertes über die Zeit. Höhere Werte signalisieren eine effektivere Strategie.
    • Maximaler Drawdown (Max Drawdown, MDD): Berechnet den größten Wertverlust des Portfolios vom Höchststand zum Tiefststand. Niedrigere Werte deuten auf ein geringeres Risiko und eine höhere Robustheit der Strategie hin.
    • Sortino-Verhältnis (Sortino Ratio): Bewertet die risikobereinigte Rendite, indem es die Überrendite über die risikofreie Rate durch die Abwärtsvolatilität teilt. Höhere Verhältnisse bedeuten eine bessere Performance.

    Für die Studie wurden die Top 20 Aktien des Dow Jones Industrial Average (DJIA) nach Gewicht als Anlageziele ausgewählt, um eine vielfältige Repräsentation über wichtige Sektoren hinweg zu gewährleisten. Der Bewertungszeitraum umfasste mehrere Monate (März bis Juni 2025) mit einem Startkapital von 100.000 US-Dollar.

    Ergebnisse der LLM-Agenten im Aktienhandel

    Die Evaluation umfasste proprietäre Modelle wie GPT-5 und Claude-4 sowie Open-Source-Modelle wie Qwen3, Kimi-K2 und GLM-4.5. Die Ergebnisse zeigen ein differenziertes Bild:

    • Proprietäre LLMs übertreffen Open-Source-Modelle: Agenten, die proprietäre LLMs als Kern nutzen, zeigten im Allgemeinen signifikant höhere und konsistentere durchschnittliche kumulierte Renditen und Sortino-Verhältnisse. Dies gilt insbesondere in komplexen und volatilen Marktumfeldern.
    • Korrelation zwischen Parametergröße und Leistung: Innerhalb der Kategorie der Open-Source-LLMs wiesen Modelle mit mehr als 67 Milliarden Parametern überlegene kumulierte Renditen und Sortino-Verhältnisse auf, begleitet von einer geringeren Varianz. Dies stützt die Annahme, dass die Denkfähigkeiten von LLMs proportional zu ihrer Parametergröße sind, was auch im sequenziellen Aktienhandel zutrifft.
    • Herausforderungen in volatilen Märkten: Obwohl einige LLM-Agenten das Potenzial zeigten, höhere Renditen zu erzielen und Risiken effektiver zu steuern, hatten die meisten Schwierigkeiten, die einfache Buy-and-Hold-Baseline zu übertreffen. Besonders in gemischten Marktbedingungen mit teils aufwärts- und abwärtsgerichteten Preistrends, wo Anlagesignale verrauscht oder verzögert sein können (z.B. bei TSLA und NIO), zeigten proprietäre Modelle eine überlegene Fähigkeit, diese Bedingungen zu managen.

    Es zeigte sich, dass die Fähigkeit, statisches Finanzwissen abzurufen, nicht zwangsläufig in erfolgreiche Handelsstrategien übersetzt wird. Die Architektur der LLM-Agenten, die fortschrittliche Gedächtnissysteme und dynamische Risikobewertungsfähigkeiten integriert, spielt eine entscheidende Rolle für die Bewältigung komplexer Marktsituationen.

    Kryptowährungs- und ETF-Handel

    Die Studie untersuchte auch die Leistung von LLM-Agenten im Kryptowährungs- und ETF-Handel. Im Kryptowährungshandel, der hochsensibel auf Nachrichten und Finanzstimmung reagiert und signifikant kleinere Preisschwankungen aufweist, waren große Open-Source-Modelle und proprietäre Modelle erforderlich, um Handelssignale effektiv zu erfassen. Mittelgroße und kleine Open-Source-Modelle zeigten hier tendenziell eine schwächere Leistung als die Markt-Baseline.

    Für ETF-Investitionen waren proprietäre Modelle mit umfassendem vortrainiertem Wissen notwendig, um als "Gehirn" der Agenten zu fungieren und robuste Argumentationsunterstützung zu bieten. Proprietäre Modelle übertrafen in dieser Aufgabe Open-Source- und finanzdomänenspezifische Modelle deutlich. Dies liegt an der Komplexität des ETF-Handels, der die Interpretation umsetzbarer Signale über verschiedene Sektoren hinweg erfordert und strategische, langfristige Entscheidungen verlangt, die auf tiefem Verständnis und Reflexion basieren.

    Diskussion und Ausblick

    Die Ergebnisse unterstreichen, dass die Leistung von LLMs im Aktien-, Kryptowährungs- und ETF-Handel erheblich variiert. Diese Variation spiegelt nicht nur die inhärente Komplexität der Finanzmärkte wider, sondern betont auch die Bedeutung der Modellauswahl und des Fine-Tunings. Proprietäre LLMs zeigen im Allgemeinen eine bessere Leistung im Aktienhandel aufgrund ihres starken Trainings auf verschiedenen Finanzdatensätzen, während Open-Source-Modelle, insbesondere in volatilen Umgebungen wie dem Kryptowährungshandel, Schwierigkeiten haben, diese Ergebnisse zu erzielen.

    Die Effektivität von LLM-basierten Agenten hängt stark von ihrer Anpassungsfähigkeit an Marktschwankungen ab. Agenten, die fortschrittliche Gedächtnissysteme und dynamische Risikobewertungsfähigkeiten integrieren, sind besser in der Lage, komplexe Marktsituationen zu bewältigen. Dies unterstreicht den Wert komplexer architektonischer Merkmale von LLM-basierten Agenten-Frameworks bei Finanzentscheidungsaufgaben.

    StockBench wird als Open-Source-Ressource veröffentlicht, um die Reproduzierbarkeit zu unterstützen und die zukünftige Forschung in diesem Bereich voranzutreiben. Zukünftige Forschungsbemühungen werden den Benchmark erweitern, indem zusätzliche Informationsmodalitäten wie Audio (z.B. Aufzeichnungen von Gewinn-Calls) und Grafiken (z.B. K-Linien, Handelscharts) integriert werden, um zu untersuchen, ob diese Datentypen die Qualität der Entscheidungsfindung verbessern können. Das zugrunde liegende Agenten-Framework von StockBench ist so konzipiert, dass es diese Modalitäten nahtlos aufnehmen kann, wodurch der erweiterte Benchmark einfach zu bedienen und skalierbar bleibt.

    Herausforderungen und ethische Aspekte

    Aktuell konzentriert sich StockBench auf Finanzentscheidungen für Einzelwerte und berücksichtigt noch keine Multi-Asset-Aufgaben wie das Portfoliomanagement. Zudem können Urheberrechtsbeschränkungen bei Finanzdaten die Qualität der erstellten Datensätze beeinträchtigen und somit die Bewertung der Modellleistung begrenzen. Die Entwickler von StockBench betonen die Verantwortung für die Entwicklung des Benchmarks und stellen sicher, dass der öffentlich verfügbare Teil der Datensätze keine persönlichen Informationen enthält und etablierten ethischen Richtlinien entspricht. Die Daten werden unter der MIT-Lizenz geteilt, die die Einhaltung ihrer Bedingungen erfordert. StockBench ist ausschließlich für akademische und Bildungszwecke bestimmt und kein Ersatz für professionelle Beratung.

    Bibliography

    - Chen, Y., Yao, Z., Liu, Y., Ye, J., Yu, J., Hou, L., & Li, J. (n.d.). STOCKBENCH - Evaluating LLMs in Realistic Stock Trading. Retrieved from https://stockbench.github.io/ - Li, H., Cao, Y., Yu, Y., Javaji, S. R., Deng, Z., He, Y., Jiang, Y., Zhu, Z., Subbalakshmi, K., Huang, J., Qian, L., Peng, X., Suchow, J. W., & Xie, Q. (2025). INVESTORBENCH: A Benchmark for Financial Decision-Making Tasks with LLM-based Agents. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 2509–2525). Association for Computational Linguistics. Retrieved from https://aclanthology.org/2025.acl-long.126/ - Li, H., Cao, Y., Yu, Y., Javaji, S. R., Deng, Z., He, Y., Jiang, Y., Zhu, Z., Subbalakshmi, K. P., Huang, J., Qian, L., Peng, X., Suchow, J. W., & Xie, Q. (n.d.). A Benchmark for Financial Decision-Making Tasks with LLM-based Agents. Retrieved from https://huggingface.co/papers/2412.18174 - Li, H., Cao, Y., Yu, Y., Javaji, S. R., Deng, Z., He, Y., Jiang, Y., Zhu, Z., Subbalakshmi, K. P., Huang, J., Qian, L., Peng, X., Suchow, J. W., & Xie, Q. (n.d.). Can LLM Agents Trade Stocks Profitably In Real-world Markets? Retrieved from https://arxiv.org/abs/2510.02209

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen