((Traduction automatisée par Reuters à l'aide de l'apprentissage automatique et de l'IA générative, veuillez vous référer à l'avertissement suivant: https://bit.ly/rtrsauto))
OpenAI a présenté jeudi trois modèles audio pour sa plateforme destinée aux développeurs, dans le but de rendre les agents logiciels vocaux plus interactifs et capables d'accomplir des tâches en temps réel.
Le lancement de l'interface de programmation d'applications (API) permet au créateur de ChatGPT d'aller au-delà de la transcription et du chat pour se diriger vers des agents capables d'écouter, de traduire et d'agir au cours de conversations en direct.
Les nouveaux modèles sont GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. OpenAI a indiqué qu'ils sont disponibles à des fins de test sur son espace de développement.
GPT-Realtime-2 est conçu pour gérer les demandes plus complexes, appeler des outils, gérer les interruptions et maintenir le contexte tout au long de sessions vocales plus longues.
Le deuxième modèle prend en charge la traduction de plus de 70 langues vers 13 langues de sortie, et cible le service client, l'éducation et d'autres contextes.
GPT-Realtime-Whisper offre une conversion voix-texte en direct, permettant de générer des sous-titres, des notes de réunion et des mises à jour de workflow pendant que l'orateur parle.
Parmi les clients testant ces modèles figurent la plateforme immobilière en ligne Zillow ZG.O , l'agence de voyages en ligne Priceline et l'opérateur de télécommunications européen Deutsche Telekom DTEGn.DE .
Le prix de GPT-Realtime-2 commence à 32 dollars par million de tokens audio, celui de GPT-Realtime-Translate est de 0,034 dollar par minute et celui de GPT-Realtime-Whisper de 0,017 dollar par minute.

0 commentaire
Vous devez être membre pour ajouter un commentaire.
Vous êtes déjà membre ? Connectez-vous
Pas encore membre ? Devenez membre gratuitement
Signaler le commentaire
Fermer