Gemini 3.5 Flash von Google: Fortschritte in Leistung und Kostenstruktur der KI

Kategorien:

No items found.

Freigegeben:

May 21, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Google hat Gemini 3.5 Flash vorgestellt, ein neues KI-Modell, das eine signifikante Leistungssteigerung gegenüber seinem Vorgänger Gemini 3 Flash aufweist.
Obwohl es als "Flash"-Modell positioniert ist, übertrifft Gemini 3.5 Flash in bestimmten Benchmarks, insbesondere in Agentic- und Coding-Aufgaben, sogar das frühere Flaggschiff Gemini 3.1 Pro.
Die Kosten für Gemini 3.5 Flash sind im Vergleich zu seinen "Flash"-Vorgängern deutlich gestiegen, liegen aber immer noch unter denen der aktuellen Pro-Modelle von Google, Anthropic und OpenAI.
Das Modell zeichnet sich durch hohe Geschwindigkeit (über 280 Output-Tokens pro Sekunde) und Multimodalität aus, zeigt jedoch Schwächen in komplexen Denkaufgaben und der Interaktion mit Computersystemen.
Unternehmen müssen die gestiegenen Kosten und den potenziell höheren Token-Verbrauch bei Agenten-Aufgaben genau analysieren, um den ROI zu bewerten.
Die "thinking_level"-Parameter im API ersetzen den früheren "thinking_budget" und erfordern eine explizite Konfiguration, um Leistungsregressionen zu vermeiden.

Googles Gemini 3.5 Flash: Eine neue Ära der KI-Kosten und -Leistung

Die Landschaft der Künstlichen Intelligenz (KI) ist einem ständigen Wandel unterworfen, geprägt von rasanten Innovationen und einer dynamischen Preisentwicklung. Google hat kürzlich mit der Einführung von Gemini 3.5 Flash ein neues Kapitel in dieser Evolution aufgeschlagen. Dieses Modell, das auf der Google I/O 2026 vorgestellt wurde, positioniert sich an der Schnittstelle von Geschwindigkeit, Leistung und Kosten und wirft wichtige Fragen für Unternehmen auf, die KI-Technologien strategisch einsetzen möchten.

Leistungsfähigkeit und Positionierung: Ein "Flash"-Modell übertrifft Erwartungen

Traditionell wurden "Flash"-Modelle von Google als schnellere und kostengünstigere Alternativen zu den leistungsstärkeren "Pro"-Modellen angesehen, oft mit Kompromissen bei der Intelligenz. Gemini 3.5 Flash durchbricht dieses Muster. Es übertrifft in mehreren Schlüssel-Benchmarks, insbesondere in agentischen und Coding-Aufgaben, sogar das frühere Flaggschiff Gemini 3.1 Pro. Dies deutet auf eine gezielte Optimierung für Anwendungsfälle hin, die mehrstufige Prozesse, Tool-Nutzung und iterative Codegenerierung umfassen.

Das Modell erreicht beispielsweise 76,2 % im Terminal-Bench 2.1 für Coding-Agenten und 83,6 % im MCP Atlas für die Zuverlässigkeit der Tool-Nutzung im großen Maßstab. Im GDPval-AA-Benchmark, der die Qualität agentischer Aufgaben in der realen Welt misst, erzielte es einen beeindruckenden Elo-Wert von 1656, eine deutliche Steigerung gegenüber Gemini 3.1 Pro (1314).

Trotz dieser Fortschritte zeigt Gemini 3.5 Flash in reinen Denkaufgaben und bei der Langkontext-Retrieval leichte Schwächen. Bei Benchmarks wie "Humanity's Last Exam" oder ARC-AGI-2 bleibt Gemini 3.1 Pro weiterhin führend. Auch bei der Retrieval von 128k-Tokens im MRCR v2-Benchmark zeigt 3.5 Flash eine geringere Leistung als sein Vorgänger.

Kostenstruktur: Ein komplexes Preisbild

Die Preisgestaltung von Gemini 3.5 Flash ist ein zentrales Thema, das eine detaillierte Betrachtung erfordert. Das Modell kostet 1,50 US-Dollar pro Million Input-Tokens und 9,00 US-Dollar pro Million Output-Tokens. Gecachte Input-Tokens sind mit 0,15 US-Dollar pro Million deutlich günstiger.

Für Nutzer, die von Gemini 3.1 Pro wechseln, stellt dies eine Reduzierung von etwa 25 % dar, da Gemini 3.1 Pro mit 2,00 US-Dollar für Input und 12,00 US-Dollar für Output pro Million Tokens bepreist ist. Dies ist die von Google kommunizierte vorteilhafte Preisentwicklung.

Betrachtet man jedoch die Vorgängermodelle der "Flash"-Reihe, wie Gemini 3 Flash Preview, so ist eine Preissteigerung zu verzeichnen. Gemini 3.5 Flash ist dreimal so teuer wie Gemini 3 Flash Preview und sechsmal so teuer wie Gemini 3.1 Flash-Lite. Eine Analyse von Artificial Analysis ergab, dass die Gesamtkosten für die Ausführung ihrer Benchmark-Suite mit Gemini 3.5 Flash etwa 5,5-mal höher waren als mit dem vorherigen Flash-Modell. Diese Erhöhung ist sowohl auf höhere Token-Preise als auch auf einen höheren Token-Verbrauch bei agenten-basierten Aufgaben zurückzuführen.

Dieser Trend ist nicht singulär für Google. Auch Anthropic und OpenAI haben bei ihren neueren Modellen Preissteigerungen oder erhöhten Token-Verbrauch zu verzeichnen, was auf eine allgemeine Verschiebung in der Preisgestaltung von Frontier-KI-Modellen hindeutet.

Technische Neuerungen und API-Anpassungen

Die API von Gemini 3.5 Flash bringt einige wichtige Änderungen mit sich, die bei der Migration bestehender Anwendungen berücksichtigt werden müssen:

thinking_budget ersetzt durch thinking_level: Der frühere Integer-Parameter thinking_budget wurde durch den String-Parameter thinking_level mit den Werten minimal, low, medium (Standard) und high ersetzt.
Standardeinstellung des Denk-Levels: Der Standardwert für thinking_level wurde von high (in der Vorschauversion) auf medium gesenkt. Dies bedeutet, dass Code, der von der Vorschauversion migriert wird, ohne explizite Einstellung des thinking_level auf high, eine geringere Denkfähigkeit aufweisen könnte.
Funktionsaufrufe: Funktionsaufrufe erfordern nun eine Übereinstimmung von id und name.
Gedankenkonservierung: Die Denk-Tokens früherer Gesprächsrunden werden nun automatisch als Kontext übernommen, was die Qualität bei langen Agenten-Loops verbessert, aber auch den effektiven Kontextverbrauch und damit die Kosten erhöht.

Bestimmte Funktionen wie Computer-Use-Agenten, Bild- und Audio-Generierung sowie die Live API werden von Gemini 3.5 Flash noch nicht unterstützt. Hierfür müssen weiterhin ältere Modelle verwendet werden.

Anwendungsbereiche und Einsatzszenarien

Gemini 3.5 Flash ist breit verfügbar und wird in verschiedenen Google-Produkten und -Plattformen eingesetzt:

Direkter API-Zugang über Google AI Studio, Gemini API und Vertex AI.
Integration in Google-Plattformen wie Antigravity (Desktop, CLI, SDK), Android Studio, die Gemini App und den AI Mode in der Google Suche.
Unterstützung in Drittanbieter-Tools wie GitHub Copilot und Cursor.
Enterprise-Lösungen über die Gemini Enterprise Agent Platform und Gemini Enterprise.

Die Stärken von Gemini 3.5 Flash liegen in Anwendungsfällen, die parallele Agenten, Tool-Calling und Dokumentenverarbeitung erfordern. Beispiele hierfür sind die Prognose des Händlerwachstums bei Shopify, die Analyse von mehr als 100 Seiten umfassenden Dokumenten für das Kunden-Onboarding bei Macquarie Bank oder die multimodale Rechnungs-OCR bei Ramp.

Die enge Integration mit der Antigravity-Plattform von Google, die für die Entwicklung und Orchestrierung autonomer KI-Agenten konzipiert ist, unterstreicht die Ausrichtung von Gemini 3.5 Flash auf agentische Workflows. Google demonstrierte, wie Flash innerhalb von Antigravity komplexe Aufgaben wie den Bau eines Betriebssystems in nur 12 Stunden mit 93 parallelen Subagenten und über 15.000 Anfragen bei Kosten unter 1.000 US-Dollar bewältigen kann.

Strategische Implikationen für Unternehmen

Die Einführung von Gemini 3.5 Flash signalisiert eine Verschiebung in der KI-Landschaft, die Unternehmen genau beobachten sollten:

Kosteneffizienz vs. Leistung: Unternehmen müssen sorgfältig abwägen, ob die erhöhte Leistung von Gemini 3.5 Flash die gestiegenen Kosten im Vergleich zu älteren Flash-Modellen rechtfertigt. Der "reine" Token-Preis ist weniger relevant als die Effizienz, d.h., wie viele Tokens ein Modell tatsächlich benötigt, um eine Aufgabe zu erledigen.
Agentische Workflows: Für Unternehmen, die verstärkt auf autonome Agenten und komplexe, mehrstufige Aufgaben setzen, könnte Gemini 3.5 Flash aufgrund seiner agentischen Fähigkeiten und Geschwindigkeit eine attraktive Option sein. Die Fähigkeit, große Mengen an gecachten Input-Tokens zu nutzen, kann die Kosten in bestimmten Szenarien reduzieren.
Modellwahl: Die Entscheidung für ein KI-Modell wird zunehmend nuancierter. Für Aufgaben, die tiefgehendes logisches Denken oder präzise Langkontext-Retrieval erfordern, könnten Pro-Modelle oder das kommende Gemini 3.5 Pro (voraussichtlich Juni 2026) weiterhin die bessere Wahl sein. Für Agenten- und Coding-Aufgaben bietet Gemini 3.5 Flash jedoch eine leistungsstarke und potenziell kostengünstigere Alternative.
ROI-Bewertung: Die Bewertung des Return on Investment (ROI) von KI-Investitionen wird anspruchsvoller. Während isolierte Aufgaben wie Codegenerierung messbar sind, ist der Wert von KI im Wissensmanagement oder bei strategischen Entscheidungen schwieriger zu quantifizieren. Unternehmen müssen die Effizienzgewinne über Abteilungen hinweg verfolgen und die potenziellen Downstream-Kosten (z.B. für Fehlerprüfung) berücksichtigen.

Ausblick: Die Zukunft der KI-Kosten und -Innovation

Die Entwicklung von Gemini 3.5 Flash zeigt, dass der Wettbewerb im Bereich der KI nicht nur auf der Ebene der reinen Intelligenz, sondern auch auf der Ebene der Effizienz und der Kostenintensität stattfindet. Google verfolgt mit seiner Infrastrukturinvestition von 180 bis 190 Milliarden US-Dollar im Jahr 2026, einschließlich der Entwicklung eigener Tensor Processing Units (TPUs), eine aggressive Strategie, um die Kosten für Inferenz zu senken und die eigenen Modelle attraktiver zu machen.

Die schnelle Iteration von Modellen, mit einem angekündigten Sechs-Monats-Rhythmus für größere Updates, bedeutet, dass Unternehmen kontinuierlich ihre KI-Strategien überprüfen und anpassen müssen. Der "Flash"-Tier, der einst für "günstig und schnell" stand, entwickelt sich zu einem leistungsstarken Arbeitspferd für autonome Workflows, das preislich zwischen den traditionellen "Flash"- und "Pro"-Modellen angesiedelt ist.

Für Unternehmen, die im B2B-Bereich tätig sind und KI als strategischen Partner betrachten, ist es entscheidend, diese Entwicklungen genau zu verfolgen und die spezifischen Anforderungen ihrer Anwendungsfälle mit den sich ständig weiterentwickelnden Fähigkeiten und Kostenstrukturen der KI-Modelle abzugleichen. Die transparente Analyse der Benchmarks und Kosten ist dabei der Schlüssel zu fundierten Entscheidungen.

Bibliography: - Google DeepMind. (2026). Gemini 3.5 Flash. deepmind.google/models/gemini/flash/ - Buntz, B. (2026). Google's Gemini 3.5 Flash scores within two points of Anthropic's flagship at a third of the price. rdworldonline.com/googles-gemini-3-5-flash-scores-within-two-points-of-anthropics-flagship-at-a-third-of-the-price/ - Bastian, M. (2026). Google's Gemini 3.5 Flash follows Anthropic and OpenAI in making newer AI models significantly pricier. the-decoder.com/googles-gemini-3-5-flash-follows-anthropic-and-openai-in-making-newer-ai-models-significantly-pricier/ - NxCode Team. (2026). Gemini 3.5 Flash: The Flash That Beat Last Year's Pro (Complete 2026 Guide). nxcode.io/resources/news/gemini-3-5-flash-complete-guide-benchmarks-pricing-api-2026 - Paramkusam, S. (2026). Gemini 3.5 Flash Review: Benchmarks, Price & API. buildfastwithai.com/blogs/gemini-3-5-flash-review-benchmarks-price-api - Nuñez, M. (2026). Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year. venturebeat.com/technology/google-says-gemini-3-5-flash-can-slash-enterprise-ai-costs-by-more-than-1-billion-a-year - Holter, A. (2026). Cost Creep 2026: Gemini Flash Gets Worse While GPT-5.x and Claude Mostly Hold the Line. adam.holter.com/cost-creep-2026-gemini-flash-gets-worse-while-gpt-5-x-and-claude-mostly-hold-the-line/ - Vojtechova, L. (2026). Gemini 3.5 Review: What Google Launched at I/O 2026. felloai.com/cs/gemini-3-5-review/ - Levi, D. (2026). Google launches Gemini 3.5 Flash and Omni world model at I/O 2026 as AI race with OpenAI heats up. techstartups.com/2026/05/20/google-launches-gemini-3-5-flash-and-omni-world-model-at-i-o-2026-as-ai-race-with-openai-heats-up/ - Singh, M. (2026). How are Gemini 3.5 Flash and Gemini Omni changing AI unveiled at Google I/O 2026? economictimes.indiatimes.com/news/international/us/inside-google-i/o-2026-how-are-gemini-3-5-flash-and-gemini-omni-changing-ai/articleshow/131209922.cms