Die Welt der automatischen Spracherkennung (ASR) hat in den letzten Jahren enorme Fortschritte gemacht. Modelle wie OpenAI's Whisper haben die Genauigkeit und Effizienz von Transkriptionen deutlich verbessert. Nun setzt die Weiterentwicklung von Inferenz-Endpunkten neue Maßstäbe in puncto Geschwindigkeit und Kosten.
Diese neuen Whisper-Inferenz-Endpunkte bieten eine bis zu achtmal höhere Leistung im Vergleich zu früheren Versionen. Dadurch wird die Bereitstellung dedizierter, leistungsstarker Transkriptionsmodelle für jedermann kostengünstig und einfach zugänglich. Dieser Fortschritt ist maßgeblich auf die kontinuierliche Innovation innerhalb der KI-Community zurückzuführen.
Die Entwicklung dieser Technologie unterstreicht die Bedeutung der Open-Source-Community für den Fortschritt im Bereich der künstlichen Intelligenz. Durch die Zusammenarbeit von Einzelpersonen, Institutionen und Industriepartnern entstehen optimierte Lösungen für eine Vielzahl von Aufgaben. Die Kombination aus leistungsstarker Hardware und innovativer Software ermöglicht die effiziente Nutzung von KI-Modellen auf einer breiten Palette von Plattformen.
Die neuen Whisper-Endpunkte nutzen modernste Open-Source-Projekte wie vLLM, welches die effiziente Ausführung von KI-Modellen, insbesondere auf NVIDIA-GPUs, ermöglicht. Die vLLM-Implementierung von Whisper erlaubt weitere Optimierungen auf Softwareebene. Der Fokus liegt dabei zunächst auf NVIDIA-GPUs mit Compute Capability 8.9 oder höher (Ada Lovelace), wie L4 und L40s. Diese Hardware ermöglicht die Nutzung von fortschrittlichen Software-Optimierungen:
- PyTorch-Kompilierung (torch.compile) - CUDA-Graphen - Float8 KV-Cache-KompilierungDurch torch.compile
werden optimierte Kernel Just-in-Time (JIT) generiert. CUDA-Graphen gruppieren sequenzielle Operationen auf der GPU, um Datenbewegungen und Overhead zu reduzieren. Die dynamische Quantisierung von Aktivierungen auf Float8 reduziert den Speicherbedarf des KV-Caches und erhöht die Cache-Trefferquote.
Whisper Large V3 zeigt eine fast achtfache Verbesserung des Real-Time-Faktors (RTFx) im Vergleich zu früheren Versionen, ohne Einbußen bei der Transkriptionsqualität. Die Genauigkeit wurde anhand des Word Error Rate (WER) auf acht Standarddatensätzen, darunter AMI, GigaSpeech und LibriSpeech, evaluiert. Die Ergebnisse zeigen, dass die optimierten Whisper-Varianten eine vergleichbare WER-Performance wie ihre Transformer-Basislinien aufweisen. Die Effizienz wurde anhand des RTFx auf dem rev16-Datensatz mit langen Audiosegmenten getestet. Alle Modelle wurden in bfloat16 auf einer einzelnen L4-GPU mit konsistenten Dekodierungseinstellungen evaluiert.
Die Bereitstellung einer eigenen ASR-Pipeline über Hugging Face Endpoints ist einfach und benutzerfreundlich. Durch die Angabe weniger Parameter können KI-Modelle in produktionsbereite Umgebungen deployed werden. Eine große Auswahl an KI-Hardware steht zur Verfügung, um den Anforderungen an Kosten und Leistung gerecht zu werden. Die Ausführung von Inferenzen auf dem bereitgestellten Modell-Endpunkt kann mit wenigen Zeilen Code in Python, Javascript oder anderen Sprachen erfolgen.
Die Geschwindigkeit der neuen Endpunkte ermöglicht die Entwicklung von Echtzeit-Transkriptionsanwendungen. Ein Beispiel hierfür ist die Integration mit FastRTC, die eine sofortige Transkription von Spracheingaben ermöglicht.
Die Entwicklung dieser Technologie ist ein fortlaufender Prozess. Die Community ist eingeladen, an der Verbesserung der Inferenz-Endpunkte mitzuwirken, neue Anwendungsfälle vorzuschlagen und Feedback zu geben. Die Zusammenarbeit innerhalb der Open-Source-Community ist entscheidend, um die Grenzen der automatischen Spracherkennung weiter zu verschieben.
Bibliographie: https://huggingface.co/blog/fast-whisper-endpoints https://huggingface.co/spaces/freddyaboulton/really-fast-whisper https://www.reddit.com/r/LocalLLaMA/comments/1d1j31r/faster_whisper_server_an_openai_compatible_server/ https://github.com/Vaibhavs10/insanely-fast-whisper https://x.com/reach_vb/status/1786365963102752908 https://github.com/SYSTRAN/faster-whisper https://www.linkedin.com/posts/vaibhavs10_lets-goooo-whisper-speaker-diarisation-activity-7192131347539283968-MKJX https://www.philschmid.de/whisper-inference-endpoints https://www.promptzone.com/promptzone/transcribe-25-hours-of-audio-in-98-seconds-meet-insanely-fast-whisper-5gn3