En una importante actualización del Modo Avanzado de Voz de ChatGPT, OpenAI ha incorporado ahora capacidades visuales. Con esta nueva funcionalidad, ChatGPT puede analizar y responder a entradas de video en tiempo real e incluso compartir pantallas durante las conversaciones.
Aunque esta característica fue introducida con GPT-4, hasta ahora solo estaba disponible la función de audio. Ahora, los usuarios pueden interactuar con ChatGPT utilizando la cámara de su smartphone, lo que permite que el chatbot vea lo que tú ves.
Es necesaria una suscripción de pago para esta nueva función
Gracias a esta actualización, ChatGPT puede comprender y comentar el contexto visual en tiempo real. La función se activa mediante un nuevo ícono de video en la aplicación móvil, donde también está disponible la opción de compartir pantalla a través de un menú separado.
Estas nuevas características están disponibles para suscriptores de ChatGPT Plus, Pro y Team, mientras que los usuarios de Enterprise y Edu podrán acceder a ellas en enero. Además, OpenAI ha lanzado una opción de voz festiva que permite a los usuarios conversar con Santa Claus, una función limitada que estará disponible hasta principios de enero.
Kevin Weil, CPO de OpenAI, junto con otros miembros del equipo, mostró una demostración de cómo ChatGPT puede ayudar en la preparación de café de método pour-over. Durante la demostración, el equipo apuntó la cámara hacia el proceso y el bot demostró que comprendía el funcionamiento de la cafetera, explicando el proceso de preparación.
Competencia de Gemini 2.0
El equipo también mostró cómo ChatGPT ahora es capaz de compartir pantallas al entender un mensaje abierto en un smartphone, donde reconoció que Weil llevaba una barba de Santa. Esta última actualización llega un día después de que Google presentara su nuevo modelo Gemini 2.0, que también es capaz de procesar entradas visuales y de audio.
Gemini 2.0 es capaz de realizar tareas complejas a través de tres proyectos de investigación, como Project Astra (asistente universal), Project Mariner y Project Jules, que son herramientas para desarrolladores.
Por su parte, la demostración más reciente de OpenAI destaca la modalidad visual de ChatGPT, que, por ahora, es capaz de identificar objetos y facilitar interacciones sin interrupciones.
Fuente: Toms Guide