Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration künstlicher Intelligenz in den akademischen Alltag stellt Lehrende und Bildungseinrichtungen vor neue Herausforderungen. Insbesondere die Nutzung von KI-Tools durch Studierende zur Erstellung von Seminar- und Abschlussarbeiten hat die Diskussion um Prüfungsformate und die Sicherstellung der Authentizität wissenschaftlicher Leistungen intensiviert. Ein Professor der New Yorker Stern School of Business hat nun eine innovative Methode entwickelt, um dieser Problematik zu begegnen, indem er selbst KI einsetzt, um die Echtheit studentischer Arbeiten zu überprüfen und mündliche Prüfungen zu skalieren.
Panos Ipeirotis, Professor für Datenwissenschaften an der Stern School of Business, beobachtete, dass viele Studierende in seinem Kurs für KI-Produktmanagement zunehmend auf generative KI-Tools wie ChatGPT, Gemini und ähnliche zurückgriffen. Obwohl der Einsatz dieser Technologien im Rahmen des Kurses grundsätzlich erlaubt war, stellte er bei nachfolgenden mündlichen Befragungen fest, dass Studierende, die vermeintlich "durchdachte, gut strukturierte Arbeiten" eingereicht hatten, oft nicht in der Lage waren, selbst grundlegende Entscheidungen oder Thesen ihrer eigenen Arbeiten zu erläutern. Diese Diskrepanz führte ihn zu der Annahme, dass die Arbeiten nicht eigenständig erstellt, sondern lediglich durch KI generiert wurden.
Angesichts dieser Entwicklung suchte Ipeirotis nach einer praktikablen Lösung, die es ihm ermöglichen würde, wieder verstärkt mündliche Prüfungen einzusetzen. Traditionelle mündliche Prüfungen sind in großen Kursen jedoch zeitaufwendig und ressourcenintensiv. Seine Herangehensweise bestand darin, "Feuer mit Feuer zu bekämpfen" und KI selbst zur Durchführung und Bewertung dieser Prüfungen zu nutzen.
Für die Umsetzung dieses Konzepts entwickelte Professor Ipeirotis eine Testumgebung, die auf dem Sprach-KI-Modell von Eleven Labs basierte. Diese Umgebung ermöglichte es, personalisierte Prüfungen zu erstellen, indem Parameter wie Namen und Projektdetails der Studierenden integriert wurden. Ein zentraler Aspekt war dabei die Nutzung mehrerer KI-Agenten, um die Prüfungsgespräche zu führen und eine breitere Bewertungsgrundlage zu schaffen, anstatt sich auf ein einzelnes Modell zu verlassen.
Die Prüfung gliederte sich in zwei Hauptabschnitte:
Die Kosten für diese innovative Prüfungsmethode beliefen sich für 36 Studierende über einen Zeitraum von neun Tagen auf lediglich 15 US-Dollar. Jede Prüfung dauerte durchschnittlich 25 Minuten, wobei die Spannbreite zwischen neun und 64 Minuten lag. Im Vergleich zu den Personal- und Zeitkosten, die eine vergleichbare Anzahl von mündlichen Prüfungen durch menschliche Lehrende verursachen würde, stellt dies eine erhebliche Effizienzsteigerung dar.
Auch die Auswertung und Benotung der Prüfungen erfolgte durch KI. Hierfür wurden Gemini, Claude und ChatGPT zunächst individuell mit der Überprüfung der Transkripte beauftragt. Anschließend verglichen diese Modelle ihre Ergebnisse und suchten einen Konsens in der Bewertung. Bei Uneinigkeiten hatte Claude die finale Entscheidungshoheit. Die Analyse ergab, dass die KI-Modelle tendenziell strenger bewerteten als Professor Ipeirotis selbst. Seine eigenen Bewertungen lagen im Durchschnitt höher, stimmten jedoch oft mit den großzügigeren Einschätzungen von Googles Gemini überein, bevor Claude und ChatGPT auf mögliche Lücken in den Antworten hinwiesen.
Durch diesen Prozess konnten drei Studierende identifiziert werden, die keinerlei Verständnis für ihre eigene Arbeit zeigten. Sieben weitere Studierende verfügten über ein rudimentäres Wissen, während dem Rest ein "Basiswissen" attestiert wurde.
Die Rückmeldungen der Studierenden zur neuen Prüfungsform waren gemischt. Während nur 13 Prozent der Befragten zukünftig mündliche Prüfungen mit KI bevorzugen würden, wünschten sich 57 Prozent eine Rückkehr zu schriftlichen Arbeiten. Bemerkenswerterweise empfanden 83 Prozent die neue Prüfungsart als deutlich stressiger. Dennoch bestätigten 70 Prozent der Studierenden, dass die KI-Prüfung ihr tatsächliches Wissen im Gegensatz zu schriftlichen Hausarbeiten besser überprüft hatte.
Professor Ipeirotis zieht aus diesen Ergebnissen die Schlussfolgerung, dass "Hausarbeiten tot sind" und plant, das Format weiter zu optimieren. Ziel ist es, den Stressfaktor für Studierende zu reduzieren, beispielsweise durch ein langsameres Fragetempo und eine ruhigere Sprachweise der KI. Zudem sollen Studierende künftig die Möglichkeit erhalten, das Prüfungsformat vorab über dieselbe Plattform zu üben, um Ängste abzubauen und ihr Wissen zu vertiefen.
Die hier vorgestellte Methode von Professor Ipeirotis unterscheidet sich maßgeblich von generischen KI-Detektoren, die lediglich die Wahrscheinlichkeit angeben, ob ein Text von einer KI generiert wurde. Solche Detektoren sind in der Praxis oft unzuverlässig und können zu Fehlalarmen führen. Dies wurde beispielsweise an einer australischen Universität deutlich, wo der Einsatz eines KI-Detektors zu zahlreichen falschen Beschuldigungen des Schummelns führte, von denen 90 Prozent der Fälle auf Fehlern des Tools basierten. Eine Studentin konnte ihre Unschuld in einem solchen Fall nur durch die Vorlage von 15 Seiten Beweismaterial, inklusive Screenshots und Änderungshistorie ihrer Arbeit, belegen.
Experten und Bildungseinrichtungen weisen darauf hin, dass die Zuverlässigkeit von KI-Detektoren nicht gegeben ist. Sie können falsch-positive Ergebnisse liefern, insbesondere bei gut strukturierten Texten. Zudem können Studierende, die betrügen wollen, ihre KI-generierten Texte anpassen, um die Detektionsrate zu senken. Die schnelle Entwicklung und Veröffentlichung neuer Sprachmodelle macht es unwahrscheinlich, dass KI-Detektoren langfristig eine zuverlässige Erkennung gewährleisten können.
Neben der technischen Unzuverlässigkeit bestehen auch erhebliche rechtliche und datenschutzrechtliche Bedenken. Prüfungsleistungen von Studierenden sind personenbezogene Daten, deren Verarbeitung durch KI-Detektoren eine rechtliche Grundlage erfordert, beispielsweise eine freiwillige und informierte Einwilligung der Studierenden oder eine entsprechende Regelung in der Prüfungsordnung. Die Black-Box-Problematik vieler KI-Systeme erschwert zudem die Einhaltung der Informationspflichten gegenüber den Studierenden.
Der Einsatz von KI-Detektoren zur Erkennung verbotenen Prüfungsverhaltens könnte als Hochrisiko-KI-Anwendung im Sinne der KI-Verordnung eingestuft werden, was zusätzliche Anforderungen und Pflichten nach sich ziehen würde. Gemäß Artikel 22 DSGVO ist es zudem untersagt, Entscheidungen, die rechtliche Wirkung entfalten oder Personen erheblich beeinträchtigen, ausschließlich auf automatisierter Verarbeitung zu basieren. Dies betrifft auch prüfungsrechtliche Entscheidungen, die maßgeblich durch KI-Detektoren beeinflusst werden könnten.
Die Erfahrungen von Professor Ipeirotis zeigen, dass der strategische Einsatz von KI im Bildungsbereich Potenzial hat, die Authentizität von Leistungen zu überprüfen und neue, skalierbare Prüfungsformate zu entwickeln. Dies kann eine Antwort auf die Herausforderungen sein, die generative KI-Tools im akademischen Kontext mit sich bringen. Gleichzeitig verdeutlicht die Debatte um KI-Detektoren die Notwendigkeit einer differenzierten Betrachtung und den Fokus auf den pädagogischen Mehrwert. Anstatt auf unzuverlässige Erkennungstools zu setzen, sollten Bildungseinrichtungen ihre Prüfungsformate und -kulturen kritisch hinterfragen und Studierende befähigen, generative KI-Modelle verantwortungsvoll und sinnvoll einzusetzen. Die Entwicklung hin zu interaktiveren, wissensbasierten Prüfungen, die durch KI unterstützt werden, könnte einen Weg darstellen, die Integrität akademischer Leistungen in einer zunehmend von KI geprägten Welt zu wahren.
Bibliography: - Fuhrmann, Marvin. "Professor lässt KI-Schummler durch KI-Prüfer auffliegen". t3n, 11. Januar 2026. - KI-Echo. "Wie ein Professor KI einsetzt, um Schummler zu entlarven und Prüfungen zu verändern". KI-Echo, 11. Januar 2026. - LinkedIn. "Wie ein Professor KI nutzt, um KI-Schummler zu entlarnten". t3n Magazin, 8. Januar 2026. - Facebook. "Nachdem ein Professor mehrere Studierende dabei erwischt hatte, KI-generierte Texte als ihre eigene Arbeit auszugeben, rief er sie zur mündlichen Nachprüfung – und nutzte dabei selbst eine KI. Warum er diesen Schritt anderen Lehrenden ebenfalls empfiehlt." t3n Magazin, 8. Januar 2026. - Baresel, Kira, Janine Horn und Susanne Schorer. "Der Einsatz von KI-Detektoren zur Überprüfung von Prüfungsleistungen - Eine Stellungnahme". Universität Hannover, 4. März 2025. - Fuhrmann, Marvin. "Vom KI-Detektor fälschlich beschuldigt: Wie eine Studentin mit 15 Seiten Beweismaterial ihre Unschuld bewies". t3n, 29. Mai 2025. - Bölling, Noëlle. "Universität setzt KI gegen KI-Schummler ein – 90 Prozent der Fälle waren Fehlalarme". t3n, 18. Oktober 2025.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen