Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Google DeepMind hat mit "FACTS Grounding" einen neuen Benchmark vorgestellt, der die Fähigkeit von KI-Modellen testet, präzise, dokumentenbasierte Antworten zu liefern. Dieser Benchmark ist ein wichtiger Schritt in der Weiterentwicklung von großen Sprachmodellen (LLMs) und unterstreicht das Engagement von Google DeepMind für faktisch korrekte KI-Systeme.
Der Benchmark umfasst 1.719 sorgfältig ausgewählte Beispiele, bei denen KI-Modelle detaillierte Antworten auf Basis vorgegebener Dokumente generieren müssen. Die Besonderheit liegt in der Bewertungsmethode: Drei führende KI-Modelle – Gemini 1.5 Pro, GPT-4o und Claude 3.5 Sonnet – fungieren als Juroren und bewerten die Antworten anhand zweier Hauptkriterien:
1. Beantwortet die Antwort die Frage adäquat?
2. Ist die Antwort faktisch korrekt und vollständig durch das Quelldokument belegt?
Die Testdokumente decken verschiedene Bereiche ab, darunter Finanzen, Technologie, Einzelhandel, Medizin und Recht und können bis zu 32.000 Tokens (ca. 20.000 Wörter) lang sein. Die Aufgaben umfassen Zusammenfassungen, Frage-Antwort-Übungen und Umformulierungen. Menschliche Bewerter haben diese Aufgaben erstellt und überprüft, um sicherzustellen, dass sie keine kreativen Antworten, Expertenwissen oder mathematisches Verständnis erfordern.
Zur Berechnung der endgültigen Punktzahl kombiniert der Benchmark die Ergebnisse verschiedener Bewertungsmodelle für jede Antwort. Die Gesamtbewertung einer Aufgabe entspricht dem Durchschnitt aller Ergebnisse der Bewertungsmodelle über alle Beispiele hinweg. Google DeepMind stellt ein FACTS Leaderboard auf Kaggle zur Verfügung, um die Transparenz und den Wettbewerb zu fördern.
In diesem Benchmark erzielen die Gemini-Modelle von Google die höchsten Punktzahlen für die Generierung von faktisch korrektem Text. Das unterstreicht den Fortschritt von Google DeepMind in der Entwicklung von zuverlässigen und präzisen Sprachmodellen.
Um Manipulationen vorzubeugen, hat Google DeepMind den Benchmark in zwei Teile geteilt: 860 öffentliche Beispiele, die jetzt verfügbar sind, und 859 private Beispiele. Die endgültige Punktzahl kombiniert die Ergebnisse aus beiden Sets. Dieses Vorgehen soll sicherstellen, dass die Ergebnisse repräsentativ und unverfälscht sind.
Google DeepMind betont, dass die Arbeit an FACTS Grounding weitergehen wird. "Faktizität und Fundiertheit gehören zu den Schlüsselfaktoren, die den zukünftigen Erfolg und die Nützlichkeit von LLMs und umfassenderen KI-Systemen bestimmen werden", so das Unternehmen. FACTS Grounding verfolgt einen anderen Ansatz als Tests wie OpenAI's SimpleQA. Während SimpleQA Modelle mit Wissensfragen aus Trainingsdaten testet, bewertet FACTS Grounding, wie gut Modelle neue Informationen aus bereitgestellten Dokumenten verarbeiten.
Die fortschreitende Entwicklung von Benchmarks wie FACTS Grounding ist entscheidend, um das Vertrauen in LLMs zu stärken und ihre Einsatzmöglichkeiten zu erweitern. Google DeepMind erkennt an, dass die Kontrolle der faktischen Genauigkeit bei LLMs, trotz ihres Einflusses auf den Informationszugang, noch immer verbesserungswürdig ist. Komplexe Eingaben können weiterhin zu Halluzinationen führen, was das Vertrauen in LLMs untergraben und ihre praktischen Anwendungen einschränken kann.
Mindverse, ein deutsches Unternehmen, bietet eine All-in-One-Content-Plattform für KI-Text, -Inhalte, -Bilder und -Recherche. Als KI-Partner entwickelt Mindverse maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme. Mit Expertise in den Bereichen Natural Language Processing und Machine Learning unterstützt Mindverse Unternehmen bei der Integration von KI-Technologien in ihre Geschäftsprozesse.
Bibliographie Bastian, Matthias. "Google DeepMind launches new AI fact-checking benchmark with Gemini in the lead." The Decoder, 17 Dec. 2024, the-decoder.com/google-deepmind-launches-new-ai-fact-checking-benchmark-with-gemini-in-the-lead/. Chawla, Deepak. "Introducing Gemini: Google's Next-Generation AI Model with Groundbreaking Test Results." LinkedIn, 7 Dec. 2023, www.linkedin.com/pulse/introducing-gemini-googles-next-generation-ai-model-test-chawla-ynqhc. Google. "Google Gemini AI update - December 2024." Google Blog, blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/. Google. "Introducing Gemini: our largest and most capable AI model." The Keyword, 6 Dec. 2023, blog.google/technology/ai/google-gemini-ai/. InfoQ. "Google DeepMind Unveils Gemini 2.0: A Leap In AI Performance And Multimodal Integration." InfoQ, 12 Dec. 2024, www.infoq.com/news/2024/12/google-gemini-2/. Mather, Ciarán. "Google DeepMind reveals new AI model to rival OpenAI’s Sora". Silicon Republic, 17 December 2024, www.siliconrepublic.com/machines/google-deepmind-sora-video-generating-veo. Metz, Cade, and Nico Grant. "Google Updates Bard Chatbot With ‘Gemini’ A.I. as It Chases ChatGPT." The New York Times, 6 Dec. 2023, www.nytimes.com/2023/12/06/technology/google-ai-bard-chatbot-gemini.html. Milmo, Dan. "Google says new AI model Gemini outperforms ChatGPT in most tests." The Guardian, 6 Dec. 2023, www.theguardian.com/technology/2023/dec/06/google-new-ai-model-gemini-bard-upgrade. Peters, Louie. "TAI 130: DeepMind Responds to OpenAI With Gemini Flash 2.0 and Veo 2." Towards AI Newsletter, 17 Dec. 2024, newsletter.towardsai.net/p/tai-130-deepmind-responds-to-openai.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen