Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
In der sich ständig weiterentwickelnden Welt der künstlichen Intelligenz hat die deutsche AI-Firma Groq Inc. kürzlich ein neues Tutorial im Groq API Cookbook veröffentlicht. Dieses Tutorial zeigt, wie man eine Bildmoderations-App einfach erstellen und bereitstellen kann. Diese App nutzt die leistungsstarken Modelle LlaVA und Llama Guard 3 8B, die von Groq Inc., Gradio und Hugging Face unterstützt werden.
LlaVA steht für Large Language and Vision Assistant und ist ein multimodales Modell, das die Stärken von Sprache und Vision kombiniert. Basierend auf OpenAI’s CLIP und einer feinabgestimmten Version von Meta’s Llama 2 7B Modell, verwendet LlaVA visuelle Instruktionstuning, um bildbasierte natürliche Anweisungen zu unterstützen und visuelle Argumentationsfähigkeiten zu bieten. Dies ermöglicht es LlaVA, eine Vielzahl von Aufgaben zu erfüllen, darunter:
- Visuelle Fragenbeantwortung: Beantwortung von Fragen auf Basis von Bildinhalten - Bildbeschriftung: Generierung von Textbeschreibungen von Bildern - Optische Zeichenerkennung: Erkennung von Text in Bildern - Multimodaler Dialog: Führung von Gesprächen, die sowohl Text als auch Bilder einbeziehenLlama Guard 3 ist ein leistungsstarkes 8B-Parameter-Modell, das speziell entwickelt wurde, um Inhalte in LLM-Eingaben und -Antworten zu klassifizieren. Es generiert Textausgaben, die anzeigen, ob ein gegebener Prompt oder eine Antwort sicher oder unsicher ist. Wenn der Inhalt als unsicher eingestuft wird, listet das Modell auch die spezifischen Inhaltkategorien auf, die verletzt wurden.
Die Anwendung von Llama Guard 3 erfolgt als gewöhnliche Groq API Chat Completion mit dem Modell „llama-guard-3-8b“. Es ist keine Systemnachricht erforderlich; man führt einfach die Nachricht, die überprüft werden soll, durch die Chat Completion-Anfrage.
Die Möglichkeiten mit LlaVA v1.5 7B sind vielfältig und aufregend. Hier sind einige konkrete Beispiele, wie es in realen Anwendungen genutzt werden kann:
- Visuelle Fragenbeantwortung (VQA): Ein Einzelhandelsgeschäft kann Bilder von Regalen verwenden, um den Lagerbestand zu überwachen und Produkte zu identifizieren, die knapp werden. - Bildbeschriftung: Eine soziale Medienplattform kann Textbeschreibungen von Bildern generieren, um es sehbehinderten Nutzern zu erleichtern, den Inhalt von Bildern zu verstehen. - Multimodale Dialogsysteme: Ein Kundenservice-Chatbot kann Gespräche führen, die sowohl Text als auch Bilder einbeziehen, sodass Kunden Fragen stellen und Antworten zu Produkten erhalten können. - Barrierefreiheit: Eine E-Commerce-Plattform kann Textbeschreibungen von Bildern für sehbehinderte Personen generieren, was für Anwendungen wie die Bildsuche, Bildempfehlungen oder bildbasierte Bildung nützlich sein kann.LlaVA v1.5 7B hat das Potenzial, eine Vielzahl von Aufgaben in verschiedenen Branchen zu automatisieren, darunter:
- Fabriklinie: Produkte auf der Produktionslinie inspizieren und Defekte identifizieren, um Qualitätsingenieuren zu helfen, den Qualitätskontrollprozess zu automatisieren. - Finanzwesen: Finanzdokumente wie Rechnungen und Quittungen prüfen, um Buchhaltungs- und Buchführungsaufgaben zu automatisieren. - Einzelhandel: Produktbilder analysieren, um Einzelhändlern zu helfen, das Bestandsmanagement und die Produktempfehlungsaufgaben zu automatisieren. - Bildung: Bildungsgrafiken und Illustrationen untersuchen, um Schülern zu helfen, effektiver und effizienter zu lernen.Groq Inc. freut sich, LlaVA v1.5 7B im Vorschau-Modus für die Community anzubieten, damit diese beginnen kann, mit Bildverarbeitungssystemen zu experimentieren. Mit der Erweiterung um LlaVA v1.5 7B unterstützt GroqCloud nun drei Modalitäten und ermöglicht Entwicklern und Unternehmen den Aufbau innovativer Anwendungen, die visuelle, auditive und textuelle Eingaben kombinieren. Starten Sie noch heute auf der GroqCloud Developer Console und nutzen Sie das volle Potenzial der multimodalen KI.
Das neue Tutorial im Groq API Cookbook bietet Entwicklern eine umfassende Anleitung zur Erstellung und Bereitstellung einer Bildmoderations-App. Mit der Integration von LlaVA und Llama Guard 3 8B können Unternehmen und Entwickler leistungsstarke Anwendungen erstellen, die sowohl visuelle als auch textuelle Eingaben verarbeiten. Die Vielseitigkeit und die zahlreichen Einsatzmöglichkeiten dieser Technologien bieten spannende Möglichkeiten für verschiedene Branchen.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen