Ein Experiment zur Rolle der KI-Modellstärke im Handel

Kategorien:

No items found.

Freigegeben:

April 26, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Anthropic führte ein Experiment namens "Project Deal" durch, bei dem KI-Agenten im Auftrag von Mitarbeitern reale Güter handelten.
Stärkere KI-Modelle wie Claude Opus erzielten konsistent bessere Ergebnisse und schlossen mehr Geschäfte ab als schwächere Modelle wie Claude Haiku.
Trotz objektiv schlechterer Ergebnisse bewerteten die Nutzer der schwächeren KI-Agenten die Fairness ihrer Geschäfte ähnlich hoch wie die Nutzer der stärkeren Agenten.
Dieses Ergebnis deutet auf eine potenzielle "unsichtbare Ungleichheit" im KI-gestützten Handel hin, bei der Nutzer benachteiligt werden könnten, ohne dies zu bemerken.
Das Experiment unterstreicht die Notwendigkeit robuster rechtlicher und ethischer Rahmenbedingungen für autonome KI-Agenten im Geschäftsverkehr.

Die fortschreitende Integration von Künstlicher Intelligenz in alltägliche Prozesse wirft zunehmend Fragen hinsichtlich Fairness, Transparenz und den Auswirkungen auf wirtschaftliche Interaktionen auf. Ein aktuelles Experiment des KI-Unternehmens Anthropic, bekannt als "Project Deal", beleuchtet diese Aspekte auf eindringliche Weise. Die Ergebnisse zeigen, dass die Leistungsfähigkeit eines KI-Modells direkte Auswirkungen auf den Erfolg von Verhandlungen hat, wobei weniger leistungsstarke Agenten ihre Nutzer unwissentlich benachteiligen können.

KI-Agenten im Handel: Ein Experiment mit realen Gütern

Im Dezember 2025 führte Anthropic ein einwöchiges Experiment durch, bei dem 69 Mitarbeiter am Standort San Francisco an einem internen Kleinanzeigenmarkt teilnahmen. Das Besondere daran: Sämtliche Verhandlungen und Geschäftsabschlüsse wurden von KI-Agenten der Claude-Modellfamilie autonom abgewickelt. Jeder Teilnehmer erhielt ein Startbudget von 100 US-Dollar. Nach einem kurzen Interview, in dem die Mitarbeiter ihre Verkaufs- und Kaufwünsche sowie bevorzugte Verhandlungsstile angaben, übernahmen die KI-Agenten die komplette Abwicklung – von der Erstellung der Angebote über die Suche nach Handelspartnern bis hin zur Preisverhandlung und dem Abschluss von Geschäften.

Die menschlichen Teilnehmer traten erst am Ende des Prozesses wieder in Aktion, um die physischen Gegenstände auszutauschen, deren Spektrum von einem Snowboard bis zu einer Tüte Tischtennisbällen reichte.

Die verborgene Variable: Modellstärke beeinflusst den Markt

Das eigentliche Forschungsinteresse lag in einem parallel stattfindenden Experiment, dessen Details den Teilnehmern zunächst nicht bekannt waren. Anthropic betrieb vier Versionen des Marktplatzes gleichzeitig. In zwei dieser Versionen nutzten alle Agenten Claude Opus 4.5, das zu diesem Zeitpunkt fortschrittlichste Modell von Anthropic. In den anderen beiden Versionen hatte jeder Teilnehmer eine 50-prozentige Chance, von Claude Haiku 4.5, dem kleineren und schnelleren Modell des Unternehmens, vertreten zu werden. In allen Fällen kommunizierten ausschließlich die KI-Agenten miteinander.

In den "realen" Läufen, in denen ausschließlich Opus-Agenten zum Einsatz kamen, wurden von den 69 Agenten 186 Geschäfte über mehr als 500 Angebote hinweg abgeschlossen, mit einem Gesamttransaktionswert von über 4.000 US-Dollar. Die Teilnehmer bewerteten die Fairness der einzelnen Geschäfte im Durchschnitt mit 4 von 7 Punkten, was einem mittleren Wert entspricht.

Die gemischten Läufe offenbarten jedoch eine messbare Diskrepanz. Nutzer, die von Opus-Agenten vertreten wurden, schlossen im Durchschnitt etwa zwei Geschäfte mehr ab als Haiku-Nutzer. Wenn derselbe Artikel sowohl von einem Opus-Agenten als auch von einem Haiku-Agenten verkauft wurde, erzielte der Opus-Agent im Durchschnitt 3,64 US-Dollar mehr. Ein Labor-Rubin wurde beispielsweise mit einem Opus-Agenten für 65 US-Dollar verkauft, mit einem Haiku-Agenten jedoch nur für 35 US-Dollar. Der Opus-Agent begann bei 60 US-Dollar und wurde durch konkurrierende Gebote nach oben getrieben, während der Haiku-Agent bei 40 US-Dollar begann und heruntergehandelt wurde.

Über 161 Artikel hinweg, die in mindestens zwei der vier Läufe verkauft wurden, erzielte ein Opus-Verkäufer im Durchschnitt 2,68 US-Dollar mehr, während ein Opus-Käufer 2,45 US-Dollar weniger zahlte. Wenn ein Opus-Verkäufer auf einen Haiku-Käufer traf, lag der Durchschnittspreis bei 24,18 US-Dollar, verglichen mit 18,63 US-Dollar bei Opus-zu-Opus-Geschäften. Angesichts eines Medianpreises von 12 US-Dollar und eines Durchschnitts von 20,05 US-Dollar über alle Läufe hinweg sind diese Unterschiede nach Aussage von Anthropic nicht unerheblich.

Interessanterweise hatten die von den Teilnehmern vorgegebenen Verhandlungsanweisungen kaum Einfluss auf die Ergebnisse. Ob ein freundlicher Ansatz oder aggressive Taktiken wie "hart verhandeln und tief ansetzen" gewählt wurden, spielte eine untergeordnete Rolle. Aggressive Verkäufer erzielten zwar höhere Preise, dies lag jedoch ausschließlich daran, dass sie von Anfang an höhere Angebotspreise festlegten.

Die "unsichtbare Ungleichheit": Verlierer ohne Kenntnis ihres Nachteils

Trotz des deutlichen Preisgefälles bewerteten die Teilnehmer mit Haiku-Agenten die Fairness ihrer Geschäfte nahezu identisch mit den Opus-Nutzern: 4,06 gegenüber 4,05 auf der Fairness-Skala. Es gab auch keinen statistisch signifikanten Unterschied in der Zufriedenheit mit einzelnen Geschäften. Von 28 Teilnehmern, die in verschiedenen Läufen sowohl Opus als auch Haiku nutzten, bevorzugten 17 ihren Opus-Lauf, aber 11 zogen tatsächlich den Haiku-Lauf vor.

Anthropic bezeichnet dies als eine "unbequeme Implikation": Wenn Agenten unterschiedlicher Stärke auf realen Märkten aufeinandertreffen, könnten Menschen benachteiligt werden, ohne es jemals zu wissen. Das Unternehmen räumt ein, dass das Experiment nicht darauf ausgelegt war, diese Dynamiken im Detail zu untersuchen, und betont die Notwendigkeit weiterer Forschung.

Das Experiment deutet zudem darauf hin, dass der KI-Agentenhandel kein fernes Zukunftsszenario ist: 46 Prozent der Teilnehmer gaben an, für einen solchen Dienst bezahlen zu würden. Gleichzeitig weist Anthropic auf mehrere Risiken hin. In einer Welt mit Unternehmen anstelle von Freiwilligen wären die Anreize sehr unterschiedlich. Die Optimierung der Aufmerksamkeit von KI-Agenten könnte zu einem mächtigen Werkzeug werden, das nicht unbedingt im Interesse der Menschen ist. Zudem würden neue Sicherheitsprobleme wie Jailbreaking und Prompt Injection bei Agenten auftreten, die tatsächlich im Auftrag handeln.

"Die politischen und rechtlichen Rahmenbedingungen für KI-Modelle, die in unserem Namen Transaktionen durchführen, existieren noch nicht", schreibt Anthropic und fügt hinzu, dass "die Gesellschaft schnell handeln muss." Die Frage, ob diese Dynamiken bestehende wirtschaftliche Ungleichheiten verstärken oder sogar verschärfen werden, bleibt offen.

Anthropic hat bereits ähnliche Experimente durchgeführt. Im Rahmen von "Project Vend" ließ das Unternehmen Claude einen kleinen Laden in seinem Büro betreiben.

Schlussfolgerungen und Ausblick für B2B-Entscheider

Die Ergebnisse von "Project Deal" sind für B2B-Entscheider von erheblicher Relevanz, insbesondere für Unternehmen, die den Einsatz autonomer KI-Agenten für Beschaffung, Vertrieb oder andere geschäftliche Verhandlungen in Betracht ziehen. Sie verdeutlichen mehrere kritische Punkte:

Bedeutung der Modellqualität: Die Leistungsfähigkeit des zugrunde liegenden KI-Modells ist ein entscheidender Faktor für den Verhandlungserfolg. Unternehmen müssen sicherstellen, dass sie Zugang zu den leistungsstärksten und geeignetsten Modellen haben, um Wettbewerbsvorteile zu erzielen.
Transparenz und Fairness: Die "unsichtbare Ungleichheit" wirft ethische Fragen auf. Wie kann sichergestellt werden, dass alle Parteien in einem Agenten-zu-Agenten-Handel fair behandelt werden, wenn Stärkenunterschiede nicht wahrnehmbar sind? Dies könnte die Entwicklung von Standards für die Offenlegung von Agenten-Fähigkeiten erforderlich machen.
Grenzen der Prompt-Optimierung: Das Experiment zeigt, dass ausgefeilte Anweisungen (Prompts) die inhärenten Leistungsunterschiede zwischen Modellen nicht vollständig ausgleichen können. Modellqualität ist demnach wichtiger als reine Prompt-Engineering-Fähigkeiten.
Rechtlicher und regulatorischer Bedarf: Die fehlenden rechtlichen Rahmenbedingungen für autonome KI-Agenten, die Transaktionen im Namen von Unternehmen durchführen, stellen ein erhebliches Risiko dar. Unternehmen, die solche Technologien einsetzen, agieren in einem weitgehend unregulierten Raum, was zu unvorhersehbaren Haftungsfragen führen kann.
Potenzial für Effizienz, aber mit Vorsicht: Trotz der Herausforderungen erkennen viele Teilnehmer das Potenzial solcher Dienste für Effizienzgewinne. Die Automatisierung von Verhandlungen könnte Geschäftsprozesse erheblich beschleunigen und Kosten senken, sofern die genannten Risiken adressiert werden.

Für Mindverse-Nutzer und Unternehmen, die auf KI-Lösungen setzen, unterstreicht dieses Experiment die Notwendigkeit einer strategischen Auswahl und eines verantwortungsvollen Einsatzes von KI-Modellen. Es ist entscheidend, nicht nur die vordergründigen Vorteile der Automatisierung zu sehen, sondern auch die potenziellen Auswirkungen auf Fairness, Transparenz und die Notwendigkeit robuster Governance-Strukturen zu berücksichtigen. Die Entwicklung hin zu einem "Agenten-Ökosystem" erfordert eine sorgfältige Abwägung technologischer Möglichkeiten mit ethischen und rechtlichen Implikationen.

Bibliographie

- Anthropic. (2025). Project Deal: Our Claude-run marketplace experiment. Abgerufen von https://www.anthropic.com/features/project-deal - Bastian, M. (2026, 25. April). Anthropic says stronger AI models cut better deals, and the losers don't even notice. The Decoder. Abgerufen von https://the-decoder.com/anthropic-says-stronger-ai-models-cut-better-deals-and-the-losers-dont-even-notice/ - Finsider. (2026, 26. April). Anthropic created a test marketplace for agent-on-agent commerce. Finsider. Abgerufen von https://thefinsider.com/anthropic-created-a-test-marketplace-for-agent-on-agent-commerce/ - Drift AI Recap. (2026, 25. April). Anthropic Let Claude Negotiate Real Deals. The Better ... [Video]. YouTube. Abgerufen von https://www.youtube.com/watch?v=MOdsL3T-bdk - The FinTech Grid. (2026, 26. April). Inside Anthropic Project Deal: The Future of AI Commerce. The FinTech Grid. Abgerufen von https://fintechgrid.io/post/inside-anthropic-project-deal-the-future-of-ai-commerce - The Times of India. (2026, 26. April). Anthropic gave Claude a $100 budget and told it to go shopping: Here's what it bought. Times of India. Abgerufen von https://timesofindia.indiatimes.com/technology/tech-news/anthropic-gave-claude-a-100-budget-and-told-it-to-go-shopping-heres-what-it-bought/articleshow/130529597.cms - Parekh, M. (2026, 26. April). AI: Anthropic's 'fascinating' internal test of AI Agents Shopping ... Michael Parekh's Substack. Abgerufen von https://michaelparekh.substack.com/p/ai-anthropics-fascinating-internal - Schuler, M. (2026, 17. Februar). Anthropic Sonnet 4.6 Matches Opus at One-Fifth the Price. The Implicator. Abgerufen von https://www.implicator.ai/anthropics-3-model-matched-its-15-flagship-the-spread-collapsed/ - OpenTools.ai. (2026, 26. April). Anthropic's Project Deal: AI Agents Trade Real Goods and the Losers Can't Tell. OpenTools.ai. Abgerufen von https://opentools.ai/news/anthropics-project-deal-ai-agents-trade-real-goods-and-losers-cant-tell - MIT Technology Review. (2025, 17. Juni). When AIs bargain, a less advanced agent could cost you. MIT Technology Review. Abgerufen von https://www.technologyreview.com/2025/06/17/1118910/ai-price-negotiation/ - Modelwire. (2026, 25. April). Anthropic says stronger AI models cut better deals ... Modelwire. Abgerufen von https://themodelwire.com/article/anthropic-says-stronger-ai-models-cut-better-deals-and-the-losers-dont-even-noti-01KQ238XHG1VDV3SNSMC6EC0KY