Inteligencia Artificial

Nuevos agentes de voz de OpenAI podrían sustituir la atención al cliente

Revolución de la inteligencia artificial de voz con nuevos modelos

OpenAI ha presentado una nueva suite de modelos de audio diseñados para potenciar agentes de voz, ahora disponibles para desarrolladores de todo el mundo.

Estas actualizaciones representan un avance significativo en la tecnología de voz impulsada por inteligencia artificial. La compañía ha introducido herramientas y modelos innovadores que permitirán a los desarrolladores crear sistemas de voz capaces de interactuar en tiempo real con los usuarios mediante el habla.

Aunque la voz es una interfaz natural para los seres humanos, su uso en aplicaciones de inteligencia artificial sigue siendo limitado.

Con estas actualizaciones, OpenAI busca cambiar este panorama, facilitando que empresas y desarrolladores creen agentes de voz más sofisticados. Estos sistemas pueden operar de manera autónoma, ayudando a los usuarios en diversas situaciones, desde atención al cliente hasta el aprendizaje de idiomas.

¿Qué novedades presenta OpenAI en el campo del audio?

La empresa ha lanzado tres avances principales en el ámbito del audio AI. Estos incluyen dos modelos de última generación para la conversión de voz a texto, un nuevo modelo de texto a voz y mejoras en el SDK de Agentes.

Los nuevos modelos de voz a texto han superado a los anteriores modelos Whisper de OpenAI en casi todos los idiomas evaluados, ofreciendo mejoras notables en la precisión y eficiencia de las transcripciones.

Por otro lado, el nuevo modelo de texto a voz permite un control preciso no solo sobre las palabras pronunciadas, sino también sobre cómo se dicen, lo que aumenta la expresividad del habla generada por IA.

Además, las actualizaciones del SDK de Agentes facilitan la conversión de asistentes basados en texto a asistentes de voz, ofreciendo interacciones más fluidas y naturales.

¿Para qué sirven los agentes de voz?

Los agentes de voz funcionan de manera similar a los asistentes de IA basados en texto, pero operan mediante interacciones de voz en lugar de texto. Algunos casos de uso incluyen:

– Atención al cliente: Los agentes de voz pueden responder llamadas y gestionar consultas de manera autónoma.

Aprendizaje de idiomas: Un entrenador de IA puede ayudar a los usuarios con la pronunciación y practicar conversaciones.

– Herramientas de accesibilidad: Ofrecen asistentes controlados por voz para personas con discapacidades, mejorando su experiencia de usuario.

GPT-4o Transcribe y GPT-4o Mini Transcribe

OpenAI también ha presentado dos nuevos modelos de transcripción: GPT-4o Transcribe y GPT-4o Mini Transcribe. El primero es un modelo de gran escala entrenado con vastas cantidades de datos de audio, ofreciendo transcripciones altamente precisas.

El segundo, GPT-4o Mini Transcribe, es una versión más pequeña y eficiente, diseñada para transcripciones rápidas y económicas.

En cuanto a precios, GPT-4o Transcribe se ofrece a $0.006 USD por minuto, el mismo costo que Whisper, mientras que GPT-4o Mini Transcribe tiene un precio de $0.03 USD por minuto. Estas opciones asequibles podrían impulsar a más empresas y desarrolladores a crear agentes de voz de alta calidad.

Fuente: OpenAI

Artículos relacionados

Back to top button

Adblock Detectado

Por favor desactiva tu Adblock para poder navegar en nuestro sitio web