Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rasante Entwicklung künstlicher Intelligenz (KI) stellt Unternehmen vor neue Herausforderungen, insbesondere im Bereich der Personalbeschaffung. Ein prominentes Beispiel hierfür ist Anthropic, ein führendes Unternehmen in der KI-Forschung und -Entwicklung, das sich gezwungen sah, seine Einstellungstests für Performance-Ingenieure mehrfach zu überarbeiten. Der Grund: Die eigenen KI-Modelle, insbesondere die Claude-Serie, zeigten eine Leistung, die die der menschlichen Bewerber übertraf oder zumindest gleichwertig war.
Seit Anfang 2024 setzte Anthropic einen Praxistest ein, der darauf abzielte, die Fähigkeiten von Performance-Ingenieuren zu bewerten. Dieser Test umfasste die Optimierung von Code für einen simulierten Beschleuniger, ähnlich den TPUs (Tensor Processing Units). Die Kandidaten sollten ein bestehendes Programm umschreiben, um dessen Ausführungsgeschwindigkeit zu verbessern, gemessen in Taktzyklen. Ein niedrigerer Wert bedeutete eine effizientere Lösung. Dieser Test war als realitätsnahe Simulation der Aufgaben konzipiert, denen Ingenieure bei Anthropic begegnen würden. Die Nutzung von KI-Tools war explizit erlaubt, da dies auch im Arbeitsalltag der Fall ist. Über 1.000 Kandidaten absolvierten diesen Test, und Dutzende der heute bei Anthropic beschäftigten Ingenieure wurden durch diesen Prozess eingestellt.
Die Effektivität dieses Tests wurde jedoch durch die fortschreitende Entwicklung von Anthropic's eigenem KI-Modell Claude untergraben. Zunächst zeigte sich mit Claude 3.7 Sonnet, dass mehr als die Hälfte der Bewerber besser abgeschnitten hätte, wenn sie die Aufgabe vollständig an die KI delegiert hätten. Die Situation verschärfte sich mit Claude Opus 4, das die meisten menschlichen Lösungen innerhalb des vorgegebenen Zeitrahmens übertraf. Die Einführung von Claude Opus 4.5 markierte einen Wendepunkt: Dieses Modell erreichte innerhalb von zwei Stunden die Ergebnisse der besten menschlichen Kandidaten. Ohne Zeitlimit konnten Menschen zwar immer noch bessere Ergebnisse erzielen, doch unter den realistischen Bedingungen eines Praxistests war eine Unterscheidung zwischen den Top-Kandidaten und dem leistungsfähigsten KI-Modell kaum noch möglich. Tristan Hume, der das Performance-Optimierungsteam bei Anthropic leitet und den Test entworfen hatte, sah sich mit der Notwendigkeit konfrontiert, den Test neu zu gestalten.
Eine naheliegende Option wäre ein Verbot von KI-Tools im Einstellungsprozess gewesen. Anthropic entschied sich jedoch bewusst dagegen. Die Begründung war, dass dies nicht die Realität der täglichen Arbeit widerspiegeln würde, in der Ingenieure zunehmend mit KI-Assistenten zusammenarbeiten. Ein Test sollte vielmehr die Fähigkeit bewerten, effektiv mit diesen Werkzeugen umzugehen, anstatt sie zu ignorieren.
Die Lösung fand Anthropic in einem radikal neuen Ansatz, inspiriert von Programmier-Puzzle-Spielen des Entwicklers Zachtronics. Diese Spiele zeichnen sich durch ungewöhnliche und stark eingeschränkte Programmierumgebungen aus, die kreative Lösungen unter minimalen Befehlen und begrenztem Speicher erfordern. Der neue Einstellungstest verwendet nun ähnlich unkonventionelle Einschränkungen. Diese Art von Aufgaben ist für Claude schwer zu lösen, da sie kaum in den Trainingsdaten des Modells vorkommen. Dadurch wird der Fokus auf neuartige Problemlösungsfähigkeiten und menschliche Kreativität gelegt, die über das Abrufen von trainiertem Wissen hinausgehen.
Anthropic hat den ursprünglichen Test auf GitHub veröffentlicht und lädt die Gemeinschaft ein, Lösungen zu finden, die Claude Opus 4.5 übertreffen. Wer eine effizientere Lösung als Claude einreicht, kann sich direkt bewerben. Dies unterstreicht die Überzeugung des Unternehmens, dass menschliche Expertise bei ausreichend Zeit und in unkonventionellen Kontexten weiterhin einen Vorteil gegenüber aktuellen KI-Modellen besitzt.
Die Erfahrungen von Anthropic verdeutlichen eine breitere Entwicklung in der technischen Personalbeschaffung. Wenn KI-Modelle immer besser darin werden, routinemäßige Aufgaben zu lösen, verschiebt sich der Wert, den Unternehmen in Bewerbern suchen. Urteilsvermögen, Originalität, die Fähigkeit zur effektiven Orchestrierung von Werkzeugen und das Lösen neuartiger, unstrukturierter Probleme werden zu entscheidenden Unterscheidungsmerkmalen. Die Anpassung der Einstellungstests ist somit keine einmalige Maßnahme, sondern ein kontinuierlicher Prozess, der mit der Entwicklung der KI-Fähigkeiten Schritt halten muss.
Für Unternehmen bedeutet dies eine ständige Neubewertung ihrer Rekrutierungsstrategien. Es geht darum, Tests zu entwickeln, die nicht nur technisches Wissen, sondern auch Anpassungsfähigkeit, kritisches Denken und die Fähigkeit zur Zusammenarbeit mit fortschrittlichen KI-Tools messen. Die Transparenz, die Anthropic durch die Veröffentlichung des ursprünglichen Tests zeigt, kann auch dazu beitragen, die Standards für "starke" Leistungen im Jahr 2026 neu zu kalibrieren und ein Bewusstsein dafür zu schaffen, wie KI verantwortungsvoll im Einstellungsprozess eingesetzt werden kann.
Die Situation bei Anthropic dient als prägnantes Beispiel dafür, wie schnell sich die Landschaft der technischen Fähigkeiten und deren Bewertung im Zuge der KI-Entwicklung verändert. Unternehmen, die sich auf diese Dynamik einstellen und ihre Prozesse entsprechend anpassen, werden besser positioniert sein, um authentische Talente zu gewinnen und gleichzeitig Fairness und Relevanz in ihren Bewertungsmethoden zu gewährleisten.
Bibliographie:
- Schreiner, Maximilian. "Anthropic keeps rewriting its hiring test because Claude keeps beating the applicants." The Decoder, 23. Januar 2026. - Hume, Tristan. "Designing AI resistant technical evaluations." Anthropic Engineering Blog, 22. Januar 2026. - Brandom, Russell. "Anthropic has to keep revising its technical interview test as Claude improves." TechCrunch, 22. Januar 2026. - TOI Tech Desk. "Anthropic's test to hire engineers had this Claude 'problem', here's how the company solved it." The Times of India, 23. Januar 2026. - AI CERTs. "Anthropic redesigns hiring tests in response to smarter Claude." AI CERTs News, 23. Januar 2026. - Techmeme. "Anthropic details how it had to redesign its take-home test for hiring performance engineers as Claude kept defeating it, and releases the original test." Facebook, 23. Januar 2026. - Zuckerman, Gregory. "Anthropic Revamps Hiring Test To Thwart Claude Cheating." FindArticles, 22. Januar 2026. - Anthropic. "Guidance on Candidates' AI Usage." Anthropic.com, 10. Juli 2025. - Li, Katherine. "Anthropic has a 2-hour engineering take-home test. It says its new Claude 4.5 model outscored every human who took it." Business Insider, 25. November 2025. - Burleigh, Emma. "$61.5 billion tech giant Anthropic has made a major hiring U-turn—now, it's letting job applicants use AI months after banning it from the interview process." Fortune, 21. Juli 2025.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen