Inteligencia Artificial

Nuevos agentes de voz de OpenAI podrían sustituir la atención al cliente

Revolución de la inteligencia artificial de voz con nuevos modelos

OpenAI ha presentado una nueva suite de modelos de audio diseñados para potenciar agentes de voz, ahora disponibles para desarrolladores de todo el mundo.

Estas actualizaciones representan un avance significativo en la tecnología de voz impulsada por inteligencia artificial. La compañía ha introducido herramientas y modelos innovadores que permitirán a los desarrolladores crear sistemas de voz capaces de interactuar en tiempo real con los usuarios mediante el habla.

Aunque la voz es una interfaz natural para los seres humanos, su uso en aplicaciones de inteligencia artificial sigue siendo limitado.

Con estas actualizaciones, OpenAI busca cambiar este panorama, facilitando que empresas y desarrolladores creen agentes de voz más sofisticados. Estos sistemas pueden operar de manera autónoma, ayudando a los usuarios en diversas situaciones, desde atención al cliente hasta el aprendizaje de idiomas.

¿Qué novedades presenta OpenAI en el campo del audio?

La empresa ha lanzado tres avances principales en el ámbito del audio AI. Estos incluyen dos modelos de última generación para la conversión de voz a texto, un nuevo modelo de texto a voz y mejoras en el SDK de Agentes.

Los nuevos modelos de voz a texto han superado a los anteriores modelos Whisper de OpenAI en casi todos los idiomas evaluados, ofreciendo mejoras notables en la precisión y eficiencia de las transcripciones.

Por otro lado, el nuevo modelo de texto a voz permite un control preciso no solo sobre las palabras pronunciadas, sino también sobre cómo se dicen, lo que aumenta la expresividad del habla generada por IA.

Además, las actualizaciones del SDK de Agentes facilitan la conversión de asistentes basados en texto a asistentes de voz, ofreciendo interacciones más fluidas y naturales.

¿Para qué sirven los agentes de voz?

Los agentes de voz funcionan de manera similar a los asistentes de IA basados en texto, pero operan mediante interacciones de voz en lugar de texto. Algunos casos de uso incluyen:

– Atención al cliente: Los agentes de voz pueden responder llamadas y gestionar consultas de manera autónoma.

Aprendizaje de idiomas: Un entrenador de IA puede ayudar a los usuarios con la pronunciación y practicar conversaciones.

– Herramientas de accesibilidad: Ofrecen asistentes controlados por voz para personas con discapacidades, mejorando su experiencia de usuario.

GPT-4o Transcribe y GPT-4o Mini Transcribe

OpenAI también ha presentado dos nuevos modelos de transcripción: GPT-4o Transcribe y GPT-4o Mini Transcribe. El primero es un modelo de gran escala entrenado con vastas cantidades de datos de audio, ofreciendo transcripciones altamente precisas.

El segundo, GPT-4o Mini Transcribe, es una versión más pequeña y eficiente, diseñada para transcripciones rápidas y económicas.

En cuanto a precios, GPT-4o Transcribe se ofrece a $0.006 USD por minuto, el mismo costo que Whisper, mientras que GPT-4o Mini Transcribe tiene un precio de $0.03 USD por minuto. Estas opciones asequibles podrían impulsar a más empresas y desarrolladores a crear agentes de voz de alta calidad.

Fuente: OpenAI

Artículos relacionados

Back to top button
PasionMóvil
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible.

La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudarnos a comprender qué secciones de la web encuentras más interesantes y útiles.

Nunca almacenamos información personal.

Tienes toda la información sobre privacidad, derechos legales y cookies en nuestra página de privacidad y cookies.

Adblock Detectado

Por favor desactiva tu Adblock para poder navegar en nuestro sitio web