KI für Ihr Unternehmen – Jetzt Demo buchen

OpenAI präsentiert MLE-bench zur Bewertung von KI-Entwicklungsfähigkeiten

Kategorien:
No items found.
Freigegeben:
October 11, 2024

Artikel jetzt als Podcast anhören

OpenAIs o1-Preview: Überragende Leistung in KI-Engineering-Benchmark

OpenAI hat mit MLE-bench einen neuen Benchmark entwickelt, der die Fähigkeiten von KI-Agenten bei der Entwicklung von Machine-Learning-Lösungen bewertet. Der Test umfasst 75 Kaggle-Wettbewerbe aus verschiedenen Bereichen wie der Verarbeitung natürlicher Sprache und der Bildverarbeitung.

Bewertung von KI-gestützter ML-Entwicklung

MLE-bench konzentriert sich auf zwei Hauptaspekte: Die Auswahl anspruchsvoller Aufgaben, die die aktuelle ML-Entwicklung repräsentieren, und den Vergleich von KI-Ergebnissen mit menschlicher Leistung. Die 75 Wettbewerbe decken verschiedene Bereiche ab, darunter die Verarbeitung natürlicher Sprache, Computer Vision und Signalverarbeitung. Viele Aufgaben haben reale Anwendungen, wie z. B. die Vorhersage der Verschlechterung von COVID-19-mRNA-Impfstoffen oder die Dekodierung alter Schriftrollen.

Erste Tests zeigen Potenzial und Grenzen

OpenAI hat mehrere KI-Modelle und Agenten-Frameworks auf MLE-bench getestet. Das o1-preview-Modell mit dem AIDE-Framework schnitt am besten ab und erreichte bei 16,9 % der Wettbewerbe mindestens eine Bronzemedaille. Dieses Ergebnis übertraf Anthropics Claude 3.5 Sonnet. Die Forscher untersuchten auch, wie sich verschiedene Skalierungsmethoden auf die Leistung von KI-Agenten auswirken. Mehr Versuche pro Wettbewerb verbesserten die Erfolgsraten deutlich. Mit 8 Versuchen verdoppelte sich die Medaillenrate von o1-preview auf 34,1 %. Längere Bearbeitungszeiten führten zu besseren Ergebnissen. GPT-4o steigerte seine Medaillenrate von 8,7 % auf 11,8 %, wenn die Bearbeitungszeit von 24 auf 100 Stunden verlängert wurde. Zusätzliche GPU-Leistung hatte jedoch kaum Auswirkungen auf die Leistung.

Herausforderungen und zukünftige Entwicklung von MLE-bench

Bei der Erstellung von MLE-bench sah sich OpenAI Herausforderungen gegenüber, wie z. B. der potenziellen Verunreinigung durch öffentlich zugängliche Kaggle-Wettbewerbe. Um dies zu beheben, verwendete das Unternehmen einen Plagiatserkenner, um die Agenten-Einreichungen mit den besten Kaggle-Lösungen zu vergleichen, und führte Experimente durch, um die Auswirkungen der Verunreinigung zu überprüfen. OpenAI räumt ein, dass MLE-bench nicht alle Aspekte der KI-Forschung und -Entwicklung abdeckt. Der Benchmark konzentriert sich auf Aufgaben mit klaren Problemstellungen, sauberen Datensätzen und einfachen Bewertungsmetriken. Herausforderungen in der realen Welt sind oft weniger klar definiert. Trotz dieser Einschränkungen sieht OpenAI in MLE-bench ein wertvolles Werkzeug zur Bewertung von Kernkompetenzen im Bereich ML-Engineering. Dazu gehören die Aufbereitung großer multimodaler Datensätze, die Verwaltung langwieriger Trainingsprozesse und das Debugging leistungsschwacher Modelle. Der MLE-bench Benchmark ist auf GitHub verfügbar.

OpenAI o1-Preview: Herausragende Fähigkeiten, aber hohe Kosten

Die neuen o1-Preview- und o1-Mini-Modelle von OpenAI sind die ersten sogenannten "Large Reasoning Models" (LRMs). Diese Modelle führen vor der Erstellung einer Ausgabe interne Denkprozesse durch, um eine Lösung zu planen und iterativ zu verbessern. Dieser Ansatz verbessert zwar die Argumentationsfähigkeit (was sich auch in den Ergebnissen von DevQualityEval widerspiegelt), ist aber mit hohen Kosten verbunden. Die Kosten für LRMs können schnell steigen. In unserem Fall haben wir durchschnittlich etwa 1,79 US-Dollar ausgegeben, um jedes Modell für den DevQualityEval v0.6-Benchmark zu bewerten. Bisher gab es nur einen extremen Ausreißer: Anthropics Claude 3 Opus mit 12,90 US-Dollar aufgrund seines hohen Preises. Das Benchmarking der neuen Modelle von OpenAI kostete uns satte 76,91 US-Dollar für o1-Preview und 8,68 US-Dollar für o1-Mini. Außerdem ist die Inferenzzeit langsamer als der Durchschnitt von 6,9 Sekunden pro Antwort, insbesondere beim o1-Preview-Modell mit 23,3 Sekunden pro Antwort. Das bisher langsamste Modell war Xwin 70B mit 19,9 Sekunden pro Antwort, gefolgt von DeepSeek V2 Coder mit 17,9 Sekunden pro Antwort.

Vergleich mit anderen Modellen und Leistung in verschiedenen Bereichen

Sowohl o1-Preview als auch o1-Mini schneiden mit 98,6 % bzw. 96,9 % außergewöhnlich gut ab und schlagen damit Claude 3.5 Sonnet (95,5 %), GPT-4o (94,3 %) und DeepSeek V2 Chat (93,6 %). Wie bereits erwähnt, ist der Preisvergleich aufgrund der internen Reasoning-Token von LRMs schwierig. In dieser Hinsicht schlug o1-Mini Claude 3 Opus sowohl in Bezug auf die Punktzahl (96,9 % gegenüber 93,0 %) als auch in Bezug auf den Preis, der sich auf insgesamt 8,68 US-Dollar gegenüber 12,9 US-Dollar belief. o1-Preview ist zwar das insgesamt beste Modell, zeichnet sich aber auch durch seine hohe Ruby-Punktzahl (98,2 %) aus und schlägt damit das zweitbeste Ruby-Modell, bei dem es sich überraschenderweise um GPT-4o (96,5 %) und nicht um o1-Mini handelt.

Herausforderungen bei der Anwendung von o1-Modellen

Obwohl o1-Modelle in Benchmarks hervorragende Ergebnisse erzielen, kann es schwieriger erscheinen, eigene Aufgaben zum Laufen zu bringen. Ich vermute, dass dies auf eine Diskrepanz zwischen realen Eingabeaufforderungen und Eingabeaufforderungen in Benchmarks hindeutet: Letztere zielen darauf ab, nur eindeutige, in sich geschlossene, minimal präsentierte Probleme zu haben, ohne Ratschläge oder Meinungen, wie sie zu lösen sind. Ich erwarte auch, dass sich dieses Problem stark verbessern wird, sobald o1-Modelle ohne ihre derzeitigen Nutzungsobergrenzen eingesetzt werden, die die Entdeckung hochwertiger Eingabeaufforderungen behindern können.

Es ist auch erwähnenswert, dass die Latenz der Antworten von o1-Preview, insbesondere die "Zeit bis zum ersten Token", deutlich höher ist als bei GPT-4o. Dies würde die Verwendung dieser Modelle für einige Anwendungen einschränken. Aber für die interaktive Nutzung in ChatGPT empfand ich dies nicht als großes Ärgernis. Nur o1-Preview ist merklich langsamer; o1-Mini macht seine "Denk"-Zeit durch eine schnellere Token-Inferenz mehr als wett.

Zusammenfassung und Ausblick

OpenAIs o1-Preview zeigt im MLE-bench Benchmark eine beeindruckende Leistung und unterstreicht das Potenzial von KI-Agenten in der ML-Entwicklung. Die Ergebnisse zeigen aber auch die Bedeutung von Skalierung und die Herausforderungen bei der Bewertung komplexer KI-Systeme. MLE-bench bietet eine Grundlage für die zukünftige Forschung und Entwicklung von KI-gestützten ML-Lösungen. Die weitere Erforschung der Möglichkeiten und Grenzen von Modellen wie o1-Preview wird für die Weiterentwicklung der KI-gestützten Softwareentwicklung von entscheidender Bedeutung sein.

Bibliographie

OpenAI. (2023). Introducing OpenAI o1-preview. https://openai.com/index/introducing-openai-o1-preview/

Symflower. (2024). OpenAI's o1-preview is the king 👑 of code generation but is super slow and expensive (Deep dives from the DevQualityEval v0.6). https://symflower.com/en/company/blog/2024/dev-quality-eval-v0.6-o1-preview-is-the-king-of-code-generation-but-is-super-slow-and-expensive/

Scale. (2024). First Impressions of OpenAI’s o1. https://scale.com/blog/first-impression-openai-o1

Cathey, G. (2024). Sourcing/Boolean Search Test: OpenAI o1-preview vs. 4o w/Chain-of-Thought Prompt. https://www.linkedin.com/pulse/sourcingboolean-search-test-openai-o1-preview-vs-4o-prompt-cathey-vfpre

Brian Design. (2024, September 17). OpenAI o1 Model is INSANE! This Can Replace Coders with Human like Thinking [Video]. YouTube. https://www.youtube.com/watch?v=7PUXQx0sxgg

Research Graph. (2024). How OpenAI’s O1 Series Stands Out Redefining AI Reasoning. Medium. https://medium.com/@researchgraph/how-openais-o1-series-stands-out-redefining-ai-reasoning-9e499937139e

GeeksforGeeks. (2024). OpenAI o1 AI Model Launched: Details. https://www.geeksforgeeks.org/openai-o1-ai-model-launch-details/

Reddit. (2024). OpenAI o1 vs GPT4o comparison. https://www.reddit.com/r/ChatGPTPro/comments/1ffpswq/openai_o1_vs_gpt4o_comparison/

OpenAI. (2024). o1. https://openai.com/o1/

Omgsogd. (2024). OpenAI o1: A Game-Changer in AI Reasoning. https://omgsogd.com/2024/09/openai-o1-a-game-changer-in-ai-reasoning/

Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen