KI für Ihr Unternehmen – Jetzt Demo buchen

Bewertung von großen Sprachmodellen im Aktienhandel mit StockBench

Kategorien:
No items found.
Freigegeben:
October 6, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Große Sprachmodelle (LLMs) zeigen Potenzial im Finanzhandel, aber ihre Leistung ist inkonsistent.
    • StockBench ist ein neuer Benchmark, der LLM-Agenten in realistischen, mehrmonatigen Aktienhandelsumgebungen bewertet.
    • Die Studie analysiert proprietäre und quelloffene LLMs basierend auf Finanzkennzahlen wie kumulativem Ertrag und maximalem Drawdown.
    • Die Ergebnisse deuten darauf hin, dass einige LLM-Modelle höhere Renditen erzielen und Risiken effektiver managen können als eine einfache Buy-and-Hold-Strategie.
    • Statische Finanzkenntnisse reichen nicht aus; die dynamische, iterative Natur des Handels erfordert spezielle Fähigkeiten der LLM-Agenten.
    • StockBench wird als Open-Source-Ressource für zukünftige Forschung bereitgestellt, um die Entwicklung von LLM-gesteuerten Finanzagenten voranzutreiben.

    Große Sprachmodelle im Aktienhandel: Eine Analyse der Profitabilität in realen Märkten

    Die Integration von Künstlicher Intelligenz (KI) in den Finanzsektor schreitet stetig voran. Insbesondere große Sprachmodelle (Large Language Models, LLMs) haben in jüngster Zeit bemerkenswerte Fähigkeiten als autonome Agenten bewiesen, die vielversprechend für Argumentation, Werkzeugnutzung und sequenzielle Entscheidungsfindung sind. Während LLM-Agenten bereits in Bereichen wie Softwareentwicklung und wissenschaftlicher Entdeckung evaluiert wurden, blieb der Finanzbereich, trotz seiner direkten Relevanz für den wirtschaftlichen Wert und risikoreiche Entscheidungen, bisher vergleichsweise unerforscht. Bestehende Finanz-Benchmarks konzentrieren sich primär auf die Prüfung statischen Wissens durch Fragenbeantwortung und erfassen die dynamische und iterative Natur des Handels nur unzureichend. Eine aktuelle Studie stellt nun einen neuen Benchmark namens StockBench vor, der diese Lücke schließen soll, indem er LLM-Agenten in realistischen, mehrmonatigen Aktienhandelsumgebungen bewertet.

    StockBench: Ein neuer Ansatz zur Bewertung von LLM-Agenten

    StockBench wurde entwickelt, um die Leistung von LLM-Agenten unter realitätsnahen Bedingungen zu messen. Die Agenten erhalten täglich Marktsignale, darunter Preise, Fundamentaldaten und Nachrichten, und müssen darauf basierend sequenzielle Kauf-, Verkaufs- oder Halteentscheidungen treffen. Die Performance wird anhand etablierter Finanzkennzahlen bewertet, wie dem kumulativen Ertrag, dem maximalen Drawdown und dem Sortino-Verhältnis. Diese Metriken bieten einen umfassenden Überblick über die Rentabilität und das Risikomanagement der Handelsstrategien der LLM-Agenten.

    Die Studie untersuchte eine Reihe von hochmodernen proprietären Modellen (z.B. GPT-5, Claude-4) sowie Open-Weight-Modellen (z.B. Qwen3, Kimi-K2, GLM-4.5). Die Ergebnisse zeigen ein differenziertes Bild: Während die meisten LLM-Agenten Schwierigkeiten hatten, eine einfache Buy-and-Hold-Baseline zu übertreffen, demonstrierten einige Modelle das Potenzial, höhere Renditen zu erzielen und Risiken effektiver zu managen. Dies unterstreicht die Herausforderungen, aber auch die Chancen bei der Entwicklung LLM-gestützter Finanzagenten. Es wird deutlich, dass exzellente Leistungen bei statischen Finanzwissensaufgaben nicht zwangsläufig in erfolgreiche Handelsstrategien übersetzt werden können.

    Architektur und Funktionsweise von LLM-Handelsagenten

    Ein typischer LLM-basierter Handelsagent, wie er im Rahmen von InvestorBench – einem umfassenderen Benchmark für finanzielle Entscheidungsfindungsaufgaben, der StockBench in Teilen zugrunde liegt – definiert wird, besteht aus mehreren miteinander verbundenen Modulen:

    • Brain/Backbone (LLM): Dies ist das Herzstück des Agenten, das natürliche Sprache versteht, verarbeitet und generiert. Es unterstützt komplexe Entscheidungsprozesse, interpretiert marktbezogene Informationen, erstellt prädiktive Analysen und reflektiert vergangene Investitionsentscheidungen.
    • Perception: Dieses Modul wandelt Rohdaten des Marktes in ein strukturiertes Format um, das für das LLM kompatibel ist. Es definiert, was der Agent wahrnimmt und beobachtet, einschließlich numerischer, textueller und visueller Informationen.
    • Profile: Hier wird die Rolle des Agenten in natürlicher Sprache beschrieben, beispielsweise als erfahrener Investor mit Expertenwissen und einer adaptiven Risikopräferenz, die sich dynamisch an die historische Marktdynamik anpasst. Zudem liefert es Hintergrundinformationen zur Entscheidungsaufgabe und den Zielanlagen.
    • Memory: Dieses Modul verarbeitet und speichert wichtige Marktdaten und historische Erkenntnisse. Es umfasst ein Arbeitsgedächtnis für kurzfristige Informationen und ein geschichtetes Langzeitgedächtnis, das Finanzkenntnisse mit unterschiedlichen Zerfallsraten speichert, ähnlich dem menschlichen kognitiven System.
    • Action: Dieses Modul führt Handels- und Investitionsentscheidungen basierend auf den Analysen der anderen Module aus. Es trifft Entscheidungen wie "Kaufen", "Verkaufen" oder "Halten" und berücksichtigt dabei historische Gewinn- und Verlustrechnungen sowie die aus dem Gedächtnis abgerufenen Informationen.

    Experimentelle Ergebnisse und Implikationen

    Die Evaluierung auf StockBench sowie weiteren Benchmarks wie InvestorBench liefert mehrere wichtige Erkenntnisse:

    Aktienhandel

    Proprietäre LLMs zeigten im Aktienhandel eine signifikant höhere und konsistentere durchschnittliche kumulative Rendite (CR) und Sharpe Ratio (SR) im Vergleich zu quelloffenen oder finanzdomänenspezifisch feingetunten LLMs. Dies könnte darauf zurückzuführen sein, dass domänenspezifische LLMs oft für andere Funktionen, wie die Analyse langer Finanzberichte, trainiert wurden und nicht primär für die sequenzielle Entscheidungsfindung im Handel.

    Die Größe der Modellparameter korrelierte tendenziell mit der Qualität und Robustheit der finanziellen Entscheidungsfindung. Größere quelloffene LLMs (über 67 Milliarden Parameter) zeigten bessere CRs und SRs und weniger Varianz, was die Annahme stützt, dass die Argumentationsfähigkeiten von LLMs proportional zu ihrer Parametergröße sind.

    Besonders in komplexen, gemischten Marktbedingungen zeigten proprietäre Modelle eine überlegene Fähigkeit, diese Herausforderungen zu meistern und konsistent bessere Ergebnisse zu liefern als selbst die größten quelloffenen LLMs. Ihre Argumentationsfähigkeit ermöglichte es ihnen, andere entscheidungsrelevante Informationen wie historisches Momentum, aktuelle Bestände und Selbstreflexionsergebnisse effektiver zu nutzen.

    Kryptowährungshandel und ETF-Handel

    Im Kryptowährungshandel waren größere quelloffene Modelle und proprietäre Modelle erforderlich, um Handelssignale effektiv zu erfassen, da dieser Markt stark auf Nachrichten und Finanzstimmungen reagiert. Mittelgroße und kleine quelloffene Modelle schnitten hier oft schlechter ab als die Markt-Baseline.

    ETF-Investitionen erforderten proprietäre Modelle, die mit umfangreichem vortrainiertem Wissen angereichert waren, um robuste Argumentationsunterstützung zu bieten. Proprietäre Modelle übertrafen quelloffene und finanzdomänenspezifische Modelle in dieser Aufgabe erheblich, was die Komplexität des ETF-Handels widerspiegelt, der strategische, langfristige Entscheidungen erfordert, die auf tiefem Verständnis und Reflexion basieren.

    Herausforderungen und Ausblick

    Die Ergebnisse verdeutlichen, dass die Leistung von LLMs im Aktien-, Kryptowährungs- und ETF-Handel erheblich variiert. Diese Variation spiegelt nicht nur die inhärente Komplexität der Finanzmärkte wider, sondern unterstreicht auch die Bedeutung der Modellauswahl und des Fine-Tunings. Die Effektivität LLM-basierter Agenten hängt stark von ihrer Fähigkeit ab, sich an Marktschwankungen anzupassen. Agenten, die fortgeschrittene Gedächtnissysteme und dynamische Risikobewertungsfähigkeiten integrieren, sind besser in der Lage, komplexe Marktsituationen zu bewältigen.

    StockBench wird als Open-Source-Ressource veröffentlicht, um die Reproduzierbarkeit zu fördern und zukünftige Forschung in diesem Bereich voranzutreiben. Zukünftige Forschungsbemühungen werden den Benchmark erweitern, indem zusätzliche Informationsmodalitäten wie Audiodaten (z.B. Mitschnitte von Telefonkonferenzen zu Gewinnen) und Grafiken (z.B. K-Linien, Handelscharts) integriert werden. Ziel ist es, zu untersuchen, ob diese Datentypen die Qualität der Entscheidungsfindung verbessern können. Die zugrunde liegende Agentenarchitektur von StockBench ist so konzipiert, dass sie diese Modalitäten nahtlos aufnehmen kann, wodurch der erweiterte Benchmark benutzerfreundlich und skalierbar bleibt.

    Es ist jedoch wichtig, die Limitationen zu beachten. Aktuell konzentriert sich StockBench auf Finanzentscheidungsaufgaben mit einzelnen Vermögenswerten und adressiert noch keine Multi-Asset-Aufgaben wie das Portfoliomanagement. Zudem können Urheberrechtsbeschränkungen bei Finanzdaten die Qualität der Datensätze beeinträchtigen und somit die Bewertung der Modellleistung einschränken.

    Fazit für B2B-Anwendungen

    Für Unternehmen, die KI-Lösungen im Finanzbereich implementieren möchten, zeigen diese Erkenntnisse, dass der Einsatz von LLM-Agenten im Handel sowohl vielversprechend als auch komplex ist. Die Wahl des richtigen LLM-Modells und die sorgfältige Gestaltung der Agentenarchitektur sind entscheidend für den Erfolg. Proprietäre Modelle scheinen derzeit in komplexen Handelsszenarien Vorteile zu bieten, während die Forschung an quelloffenen Modellen weiterhin wichtig ist, um deren Leistungsfähigkeit zu steigern. Die Fähigkeit eines LLM-Agenten, dynamische Marktinformationen zu verarbeiten, zu argumentieren und sich anzupassen, ist dabei wichtiger als bloßes statisches Finanzwissen. Für B2B-Kunden bedeutet dies, dass bei der Auswahl eines KI-Partners der Fokus auf Lösungen liegen sollte, die nicht nur auf umfangreichem Finanzwissen basieren, sondern auch über adaptive Lern- und Entscheidungsfindungsmechanismen verfügen, um in den volatilen Realmärkten bestehen zu können.

    Die kontinuierliche Entwicklung und Verbesserung von Benchmarks wie StockBench ist unerlässlich, um die Leistungsfähigkeit und Robustheit von LLM-gesteuerten Finanzagenten zu bewerten und die nächste Generation von KI-gestützten Handelsstrategien voranzutreiben.

    Bibliography: - Chen, Y., Yao, Z., Liu, Y., Ye, J., Yu, J., Hou, L., & Li, J. (2025). StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? arXiv preprint arXiv:2510.02209. - Hugging Face Daily Papers (October 2025). Can LLM Agents Trade Stocks Profitably In Real-world Markets? Retrieved from https://huggingface.co/papers/2510.02209 - Li, H., Cao, Y., Yu, Y., Javaji, S. R., Deng, Z., He, Y., ... & Suchow, J. W. (2024). InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent. arXiv preprint arXiv:2412.18174. - Zhang, C., Liu, X., Zhang, Z., Jin, M., Li, L., Wang, Z., ... & Zhang, Y. (2024). When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments. arXiv preprint arXiv:2407.18957. - Yao, Z., Chen, Y., Liu, Y., Ye, J., Yu, J., Hou, L., & Li, J. (2025). StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? Retrieved from http://paperreading.club/page?id=344065

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen