Google DeepMind präsentiert neuen Benchmark zur KI-Faktenprüfung

Kategorien:

No items found.

Freigegeben:

December 20, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Google DeepMind setzt neue Maßstäbe im Bereich der KI-Faktenprüfung

Google DeepMind hat mit "FACTS Grounding" einen neuen Benchmark vorgestellt, der die Fähigkeit von KI-Modellen testet, präzise, dokumentenbasierte Antworten zu liefern. Dieser Benchmark ist ein wichtiger Schritt in der Weiterentwicklung von großen Sprachmodellen (LLMs) und unterstreicht das Engagement von Google DeepMind für faktisch korrekte KI-Systeme.

Wie funktioniert FACTS Grounding?

Der Benchmark umfasst 1.719 sorgfältig ausgewählte Beispiele, bei denen KI-Modelle detaillierte Antworten auf Basis vorgegebener Dokumente generieren müssen. Die Besonderheit liegt in der Bewertungsmethode: Drei führende KI-Modelle – Gemini 1.5 Pro, GPT-4o und Claude 3.5 Sonnet – fungieren als Juroren und bewerten die Antworten anhand zweier Hauptkriterien:

1. Beantwortet die Antwort die Frage adäquat?
2. Ist die Antwort faktisch korrekt und vollständig durch das Quelldokument belegt?

Die Testdokumente decken verschiedene Bereiche ab, darunter Finanzen, Technologie, Einzelhandel, Medizin und Recht und können bis zu 32.000 Tokens (ca. 20.000 Wörter) lang sein. Die Aufgaben umfassen Zusammenfassungen, Frage-Antwort-Übungen und Umformulierungen. Menschliche Bewerter haben diese Aufgaben erstellt und überprüft, um sicherzustellen, dass sie keine kreativen Antworten, Expertenwissen oder mathematisches Verständnis erfordern.

Bewertung und Leaderboard

Zur Berechnung der endgültigen Punktzahl kombiniert der Benchmark die Ergebnisse verschiedener Bewertungsmodelle für jede Antwort. Die Gesamtbewertung einer Aufgabe entspricht dem Durchschnitt aller Ergebnisse der Bewertungsmodelle über alle Beispiele hinweg. Google DeepMind stellt ein FACTS Leaderboard auf Kaggle zur Verfügung, um die Transparenz und den Wettbewerb zu fördern.

Gemini führt das Feld an

In diesem Benchmark erzielen die Gemini-Modelle von Google die höchsten Punktzahlen für die Generierung von faktisch korrektem Text. Das unterstreicht den Fortschritt von Google DeepMind in der Entwicklung von zuverlässigen und präzisen Sprachmodellen.

Maßnahmen gegen Manipulation

Um Manipulationen vorzubeugen, hat Google DeepMind den Benchmark in zwei Teile geteilt: 860 öffentliche Beispiele, die jetzt verfügbar sind, und 859 private Beispiele. Die endgültige Punktzahl kombiniert die Ergebnisse aus beiden Sets. Dieses Vorgehen soll sicherstellen, dass die Ergebnisse repräsentativ und unverfälscht sind.

Zukünftige Entwicklungen

Google DeepMind betont, dass die Arbeit an FACTS Grounding weitergehen wird. "Faktizität und Fundiertheit gehören zu den Schlüsselfaktoren, die den zukünftigen Erfolg und die Nützlichkeit von LLMs und umfassenderen KI-Systemen bestimmen werden", so das Unternehmen. FACTS Grounding verfolgt einen anderen Ansatz als Tests wie OpenAI's SimpleQA. Während SimpleQA Modelle mit Wissensfragen aus Trainingsdaten testet, bewertet FACTS Grounding, wie gut Modelle neue Informationen aus bereitgestellten Dokumenten verarbeiten.

Die fortschreitende Entwicklung von Benchmarks wie FACTS Grounding ist entscheidend, um das Vertrauen in LLMs zu stärken und ihre Einsatzmöglichkeiten zu erweitern. Google DeepMind erkennt an, dass die Kontrolle der faktischen Genauigkeit bei LLMs, trotz ihres Einflusses auf den Informationszugang, noch immer verbesserungswürdig ist. Komplexe Eingaben können weiterhin zu Halluzinationen führen, was das Vertrauen in LLMs untergraben und ihre praktischen Anwendungen einschränken kann.

Mindverse: Ihr Partner für KI-Lösungen

Mindverse, ein deutsches Unternehmen, bietet eine All-in-One-Content-Plattform für KI-Text, -Inhalte, -Bilder und -Recherche. Als KI-Partner entwickelt Mindverse maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme. Mit Expertise in den Bereichen Natural Language Processing und Machine Learning unterstützt Mindverse Unternehmen bei der Integration von KI-Technologien in ihre Geschäftsprozesse.

Bibliographie Bastian, Matthias. "Google DeepMind launches new AI fact-checking benchmark with Gemini in the lead." The Decoder, 17 Dec. 2024, the-decoder.com/google-deepmind-launches-new-ai-fact-checking-benchmark-with-gemini-in-the-lead/. Chawla, Deepak. "Introducing Gemini: Google's Next-Generation AI Model with Groundbreaking Test Results." LinkedIn, 7 Dec. 2023, www.linkedin.com/pulse/introducing-gemini-googles-next-generation-ai-model-test-chawla-ynqhc. Google. "Google Gemini AI update - December 2024." Google Blog, blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/. Google. "Introducing Gemini: our largest and most capable AI model." The Keyword, 6 Dec. 2023, blog.google/technology/ai/google-gemini-ai/. InfoQ. "Google DeepMind Unveils Gemini 2.0: A Leap In AI Performance And Multimodal Integration." InfoQ, 12 Dec. 2024, www.infoq.com/news/2024/12/google-gemini-2/. Mather, Ciarán. "Google DeepMind reveals new AI model to rival OpenAI’s Sora". Silicon Republic, 17 December 2024, www.siliconrepublic.com/machines/google-deepmind-sora-video-generating-veo. Metz, Cade, and Nico Grant. "Google Updates Bard Chatbot With ‘Gemini’ A.I. as It Chases ChatGPT." The New York Times, 6 Dec. 2023, www.nytimes.com/2023/12/06/technology/google-ai-bard-chatbot-gemini.html. Milmo, Dan. "Google says new AI model Gemini outperforms ChatGPT in most tests." The Guardian, 6 Dec. 2023, www.theguardian.com/technology/2023/dec/06/google-new-ai-model-gemini-bard-upgrade. Peters, Louie. "TAI 130: DeepMind Responds to OpenAI With Gemini Flash 2.0 and Veo 2." Towards AI Newsletter, 17 Dec. 2024, newsletter.towardsai.net/p/tai-130-deepmind-responds-to-openai.