Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Text-zu-Bild-Modellen (T2I) hat zu beeindruckenden Fortschritten in der Bildgenerierungsqualität geführt. Dennoch offenbaren aktuelle Modelle oft eine Tendenz zu homogenen Ausgaben, wodurch die gewünschte Vielfalt in den generierten Inhalten eingeschränkt wird. Diese mangelnde Diversität stellt eine signifikante Herausforderung dar, sowohl aus technischer als auch aus anwendungsbezogener Perspektive. Eine umfassende Bewertung der Diversität ist daher essenziell, um die Leistungsfähigkeit und Anwendbarkeit dieser Modelle in verschiedenen Kontexten zu gewährleisten.
Ein kürzlich vorgestelltes Forschungsframework adressiert die Notwendigkeit einer robusten Diversitätsbewertung in T2I-Modellen. Dieses Framework wurde entwickelt, um die Diversität systematisch zu erfassen, indem einzelne Konzepte und deren relevante Variationsfaktoren evaluiert werden. Es zielt darauf ab, präzise Einblicke in die Stärken und Schwächen von T2I-Modellen hinsichtlich der Generierung vielfältiger Inhalte zu liefern.
Das Framework basiert auf drei Hauptkomponenten, die eine detaillierte und zuverlässige Bewertung ermöglichen:
Die Forschung argumentiert, dass eine aussagekräftige Diversitätsmessung eine klare Spezifikation des zu bewertenden Konzepts und des interessierenden Attributs erfordert. Ohne diese Klarheit ist die menschliche Genauigkeit bei der Diversitätsbewertung zufällig. Um dies zu belegen, wurde eine Evaluation durchgeführt, bei der menschliche Annotatoren ohne spezifische Attributdefinitionen eine Genauigkeit von lediglich 30,0% für Sets der Größe 4 und 26,7% für Sets der Größe 8 erreichten. Mit expliziter Nennung des gewünschten Variationsaspekts stieg die Genauigkeit auf 82,5% bzw. 53,3%.
Diese Erkenntnis führte zur Entwicklung eines Evaluations-Templates, das die Bewertung in zwei Unteraufgaben unterteilt: das Zählen von Variationen und den Vergleich dieser Zählungen. Eine zusätzliche Verankerungsfrage, die Annotatoren auffordert, die Anzahl der unterschiedlichen Instanzen eines Attributs zu zählen, erhöhte die Genauigkeit weiter auf 77,9% für Sets der Größe 8. Dies unterstreicht, dass eine präzise Definition der Bewertungskriterien die Zuverlässigkeit menschlicher Bewertungen erheblich verbessert.
Das Framework wurde eingesetzt, um umfassende menschliche Annotationen zu sammeln, die als Ground Truth für die Bewertung von Diversitätsmetriken dienen. Dies ermöglichte einen Vergleich der Modellrankings aus menschlichen und automatischen Evaluationen, um die Diskrepanz zwischen menschlich wahrgenommener Diversität und den Fähigkeiten aktueller Metriken hervorzuheben.
Fünf prominente generative Modelle – Muse 2.2, Imagen 2.5, Imagen 3, DALLE3 und Flux 1.1 – wurden hinsichtlich ihrer attributsbasierten Diversität evaluiert. Für jeden Prompt wurden 20 verschiedene Samples pro Modell generiert und in 10 Sets von je 8 Bildern zufällig kombiniert. Fünf Rater führten Side-by-Side-Evaluierungen durch. Insgesamt wurden 24.591 Annotationen gesammelt. Die hohe Inter-Annotator-Übereinstimmung (Krippendorffs Alpha > 0.8) bestätigt die Zuverlässigkeit der menschlichen Bewertungen.
Die Ergebnisse der Binomialtests zeigten, dass Imagen 3 und Flux 1.1 signifikant besser oder zumindest gleichwertig zu allen anderen Modellen abschnitten. Imagen 2.5 und Muse 2.2 zeigten keine signifikanten Vorteile gegenüber den Konkurrenten. DALLE3 war signifikant besser als Imagen 2.5, übertraf jedoch die anderen Top-Modelle nicht signifikant. Dies deutet darauf hin, dass neuere Modelle Fortschritte in der Diversitätsgenerierung gemacht haben.
Angesichts der Kosten menschlicher Evaluationen ist die Entwicklung automatischer Metriken, die menschliches Urteilsvermögen präzise widerspiegeln, von großer Bedeutung. Die gesammelten menschlichen Annotationen wurden genutzt, um die Rolle von Embeddings für den Vendi Score, eine referenzfreie Diversitätsmetrik, zu untersuchen. Drei Arten von Embeddings wurden verglichen:
Die Ergebnisse zeigten, dass der Vendi Score, wenn er mit dem geeigneten Repräsentationsraum optimiert wird, menschliche Diversitätsurteile mit etwa 65% Genauigkeit erfassen kann. Bei größeren Unterschieden zwischen Modellpaaren stieg die Genauigkeit auf 80%. Dies deutet auf die Notwendigkeit diskriminanterer Repräsentationen hin. Besonders die bildbasierten Ansätze (Inception, DINO, ViT) zeigten bei deutlichen Divergenzen zwischen den Modellen gute Leistungen.
Das Ranking der Modelle mittels Autoevaluation ergab, dass Imagen 3 unabhängig vom gewählten Embedding nicht schlechter als andere Modelle war. Flux 1.1, Imagen 3 und DALLE3 schnitten besser ab als Imagen 2.5 und Muse 2.2. Die Wahl des Embedding-Modells und der Konditionierung beeinflusste die Sensitivität der Autoevaluation gegenüber bestimmten Variationen. Textkonditionierung, obwohl der menschlichen Evaluationsprozedur am nächsten, zeigte keinen signifikanten Vorteil mit den aktuellen Embedding-Modellen.
Die Arbeit betont die Notwendigkeit einer menschlichen Perspektive bei der Evaluierung von KI-Modellen. Alle 20 menschlichen Annotatoren wurden für ihre Zeit entsprechend dem Mindestlohn entlohnt und erhielten umfassende Anweisungen, um die Aufgabenstellung zu verstehen. Dieses Vorgehen unterstreicht einen verantwortungsvollen Umgang mit menschlichen Daten und Arbeitskräften in der KI-Forschung.
Die Ergebnisse dieser Forschung tragen dazu bei, die Qualität von T2I-Modellen hinsichtlich der Diversität zu verbessern, indem sie einen Evaluationsrahmen bieten, der auf menschlicher Wahrnehmung basiert. Zukünftige Arbeiten könnten diese Methodik nutzen, um demografische Diversität auf klassifikationsfreie Weise zu messen, anstatt sich auf Attributklassifikatoren zu verlassen, die anfällig für Voreingenommenheit sein können. Dies wäre ein wichtiger Schritt zur Entwicklung ethischerer und inklusiverer KI-Systeme.
Das vorgestellte Framework bietet eine robuste Grundlage für die zukünftige Entwicklung menschenzentrierter Evaluationsmetriken und die Verbesserung der Diversität in T2I-Modellen. Die Erkenntnisse aus dieser Studie können dazu beitragen, die Lücke zwischen der technischen Leistungsfähigkeit und der menschlichen Wahrnehmung von Diversität in der generativen KI zu schließen. Dies ist insbesondere für Unternehmen, die auf KI-basierte Content-Generierung setzen, von großer Relevanz, um marktgerechte und ansprechende Inhalte zu produzieren.
Bibliography - Albuquerque, I., Ktena, I., Wiles, O., Kajić, I., Rannen-Triki, A., Vasconcelos, C., & Nematzadeh, A. (2025). Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation. arXiv preprint arXiv:2511.10547. - Hugging Face. (2025). Daily Papers - Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation. https://huggingface.co/papers/2511.10547 - ChatPaper. (2025). Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation. https://chatpaper.com/zh-CN/chatpaper/paper/209181Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen