Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Erkennung sozialer Beziehungen in Bildern, also die Identifizierung von Beziehungskategorien wie Freunde, Ehepartner oder Kollegen, ist ein komplexes Forschungsgebiet der Künstlichen Intelligenz. Herkömmliche Methoden setzen auf das Training dedizierter neuronaler Netze mit beschrifteten Bilddaten. Diese Ansätze stoßen jedoch an Grenzen hinsichtlich ihrer Generalisierbarkeit und Interpretierbarkeit. Ein vielversprechender neuer Ansatz namens SocialGPT kombiniert die Stärken von visuellen Basismodellen (VFMs) und großen Sprachmodellen (LLMs) in einem modularen Framework.
SocialGPT verfolgt einen zweistufigen Prozess. Zunächst übersetzen VFMs den Bildinhalt in eine textuelle "soziale Geschichte". Diese Geschichte beschreibt die im Bild dargestellten Personen und ihre möglichen Interaktionen. Anschließend analysiert ein LLM diese Geschichte und leitet daraus die soziale Beziehung zwischen den Personen ab. Dieser Ansatz ermöglicht es, die Wahrnehmungsfähigkeit von VFMs mit den Argumentationsfähigkeiten von LLMs zu verknüpfen.
Ein wichtiger Bestandteil von SocialGPT sind die systematischen Designprinzipien, die die VFMs und LLMs separat anpassen und ihre jeweiligen Schwächen ausgleichen. Dadurch erreicht SocialGPT bereits im Zero-Shot-Learning, also ohne zusätzliches Training mit spezifischen Daten, wettbewerbsfähige Ergebnisse. Ein weiterer Vorteil ist die Interpretierbarkeit der Ergebnisse. Da LLMs sprachbasierte Erklärungen für ihre Entscheidungen generieren können, bietet SocialGPT Einblicke in den zugrundeliegenden Denkprozess.
Die manuelle Gestaltung der Prompts, also der Anweisungen an das LLM, ist ein aufwändiger Prozess. Daher wurde die Greedy Segment Prompt Optimization (GSPO) entwickelt, um diesen Prozess zu automatisieren. GSPO nutzt Gradienteninformationen auf Segmentebene, um eine gierige Suche nach optimalen Prompts durchzuführen. Diese Methode adressiert das Problem der langen Prompt-Optimierung, das bei der Umwandlung einer visuellen Klassifizierungsaufgabe in eine generative Aufgabe für LLMs entsteht.
Experimentelle Ergebnisse zeigen, dass GSPO die Leistung von SocialGPT deutlich verbessert und auch auf verschiedene Bildstile generalisiert werden kann.
SocialGPT bietet gegenüber herkömmlichen Methoden mehrere Vorteile:
Verbesserte Generalisierbarkeit: Durch die Kombination von VFMs und LLMs kann SocialGPT auch auf Bilder angewendet werden, die sich von den Trainingsdaten unterscheiden.
Höhere Interpretierbarkeit: Die sprachbasierten Erklärungen der LLMs bieten Einblicke in den Entscheidungsprozess.
Effiziente Prompt-Optimierung: GSPO automatisiert die aufwändige manuelle Prompt-Gestaltung.
Potenzial für Zero-Shot-Learning: SocialGPT erzielt bereits ohne zusätzliches Training wettbewerbsfähige Ergebnisse.
SocialGPT eröffnet neue Möglichkeiten für die Analyse sozialer Interaktionen in Bildern. Anwendungsbereiche finden sich beispielsweise in der Bildbeschreibung, der sozialen Medienanalyse und der Mensch-Computer-Interaktion. Zukünftige Forschung könnte sich auf die Verbesserung der Genauigkeit und Effizienz von SocialGPT sowie auf die Erweiterung auf andere Arten sozialer Beziehungen konzentrieren.
Mindverse, als Anbieter von KI-gestützten Content-Lösungen, verfolgt die Entwicklungen im Bereich der sozialen Beziehungserkennung mit großem Interesse. Die Kombination von visuellen und sprachlichen Modellen, wie sie in SocialGPT demonstriert wird, bietet vielversprechende Ansätze für die Entwicklung innovativer KI-Anwendungen.
Bibliographie: - https://neurips.cc/virtual/2024/poster/93072 - https://aman.ai/primers/ai/prompt-engineering/ - https://arxiv.org/html/2404.17218v3 - https://www.promptingguide.ai/papersLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen