OpenAI, la empresa pionera en el desarrollo de ChatGPT, el chatbot impulsado por inteligencia artificial generativa, ha revelado una nueva versión de su aclamada herramienta. Esta versión avanzada es capaz de “ver, escuchar y mantener conversaciones habladas” con los usuarios.
Usuarios de pago tendrán acceso anticipado
Dentro de dos semanas, los usuarios de la versión de pago podrán mantener diálogos hablados con la máquina, permitiéndoles recibir respuestas verbales y enviar imágenes, fotos, capturas de pantalla y documentos directamente al chat para obtener respuestas detalladas y precisas.
En cuanto a los usuarios que hacen uso de la versión gratuita de esta herramienta, podrán beneficiarse de estas nuevas actualizaciones en un plazo cercano, según lo anunciado por OpenAI.
La integración de capacidades de voz e imagen proporciona a los usuarios una mayor versatilidad en la forma en que pueden aprovechar ChatGPT en su vida cotidiana.
Similitudes con asistentes de voz
Por ejemplo, mientras se encuentren en casa, podrán tomar fotografías de su refrigerador y despensa para averiguar qué opciones tienen para la cena y realizar consultas adicionales para obtener recetas detalladas paso a paso, tal como indica la empresa en un comunicado oficial.
Para ilustrar cómo se puede aprovechar la funcionalidad de voz de esta herramienta, la compañía sugiere que los usuarios pueden emplearla para “narrar una historia o resolver una discusión”.
ChatGPT ahora cuenta con la capacidad de ver, escuchar y mantener conversaciones habladas. Hasta el momento, este asistente de voz, que guarda similitudes con Alexa de Amazon y Siri de Apple, se encontrará disponible en dispositivos iOS y Android, aunque no estará habilitado para PC.
Apoyo de Whisper para lograr esto
Los usuarios tendrán la opción de seleccionar entre cinco voces distintas, si bien la voz predeterminada y la utilizada en los ejemplos de hoy es una que simula ser la de una mujer joven.
Para lograr esta funcionalidad, OpenAI emplea Whisper, su herramienta basada en IA diseñada para transcribir audio y convertir la voz del usuario en texto. Posteriormente, la empresa emplea su nuevo modelo de conversión de texto a voz para generar la respuesta de la máquina.