Verbio explora la Inteligencia Artificial en los diversos usos de la voz humana
Verbio Technologies es una empresa que se fundó en 1999 y desde sus inicios está enfocada 100% al desarrollo de tecnologías de voz. Nació a raíz del proyecto de un grupo de emprendedores españoles que empezó en la Universidad Politécnica de Barcelona con un laboratorio de voz, se escindió de la universidad una vez que el proyecto ya estaba maduro y actualmente cuenta con presencia en Europa, Asia y América y ofrece soluciones en 20 idiomas y acentos diferentes.
El IVR es una tecnología basada en el canal telefónico capaz de recibir una llamada e interactuar con el ser humano a través del uso de la voz o del teclado del mismo teléfono a fin de canalizar las llamadas, segmentarlas y dirigirlas hacia un área en particular.
Verbio trabaja en verticales tan diversas como Telco, Gobierno, Utilities, Bancos, Healthcare y en general cualquier industria que busque automatizar la atención a clientes y que de una manera rápida éste pueda obtener la información por la que haya contactado a la empresa.
Actualmente Verbio cuenta con tres grandes proyectos en operadores telefónicos. Uno de ellos es Sprint, en Estados Unidos; otro es Movistar en Perú y uno más es Oi, de Brasil, donde ofrecen tecnología que está detrás del asistente virtual que atiende al público que llama. Un asistente virtual, a diferencia de un IVR, entabla una conversación en lenguaje normal y natural con la persona que llama y le ayuda a resolver los temas más diversos, desde dudas de facturación hasta compra de recarga, y Verbio, a través del reconocimiento de voz gracias a la Inteligencia Artificial, puede identificar cuál es el motivo por el que el cliente está llamando, poder obtener información adicional para conectarse a los sistemas de la empresa y resolver el motivo de la llamada desde el primer contacto con el cliente, evitando así transferir la llamada del cliente a varios departamentos, pedir datos adicionales y hacer que la llamada se vuelva larga y tediosa.
Estos tres proyectos son relevantes por el volumen de llamadas que se manejan, ya que estamos hablando de un volumen superior a los 60 millones de llamadas al mes y la variedad de los motivos de esas llamadas es sumamente extenso.
Verbio está siempre en búsqueda de socios expertos en el desarrollo de devices dónde se canaliza esa voz ya que la empresa no desarrolla hardware, como bocinas, teléfonos ni otros productos IoT. Lo que busca es aliarse con empresas expertas en algún ecosistema para que luego ellos puedan integrar la voz en la interacción con el cliente y así poder enfocarse en la experiencia del usuario, así como en la interacción con los clientes.
Además de empresas de Telecomunicaciones, Verbio también cuenta con proyectos en bancos, como en el caso de BBVA o Banorte. BBVA también dispone de un asistente virtual con Verbio, pero los clientes de banca hablan de manera muy distinta a los clientes de telco, de temas tan variados como créditos o inversiones. Incluso entre los diversos bancos los temas y la forma de hablar de los clientes no es igual. Con BBVA trabajan en México, España y Venezuela.
Verbio ofrece puntos de contacto con el cliente final, por lo que la empresa que los contrata debe definir cómo quiere que la perciban. Tiene que definir si va a poner una voz, si va a ser una voz corporativa, una voz de catálogo, una hecha a su medida, si es hombre o mujer, que sea neutro, que hable de tú, de usted, que suene cálida o que suene dura. Todo esto que antes se hacía con los talentos de voz humanos, ahora se hace con los talentos de máquina gracias a la Inteligencia Artificial (IA).
Por otra parte, Verbio también trabaja con Banorte. Ahí tiene implementado un proyecto de identificación biométrica por voz. Uno de los retos en esta implementación fue el alto grado de personalización que requirió el banco para cubrir exactamente las necesidades de producto, del área de Seguridad y, de manera relevante, con el área de Mercadotecnia. ¿Por qué de Mercadotecnia? Porque muchas veces la tecnología se ve como un área que se ofrece a las áreas de tecnología, cuando en realidad las áreas de Mercadotecnia, de Customer Experience son las primeras que debieran estar involucradas ya que la solución de voz tiene que ver con la imagen, con la marca y la imagen que la compañía está proyectando.
En el caso del sistema de biometría de Banorte, más que por el volumen de llamadas, su dimensión queda definida por el volumen de huellas biométricas que se manejan. En este caso hablamos de un universo de aproximadamente seis millones de huellas de voz, por lo que es un proyecto muy grande, pensando en esta medición. Es uno de los proyectos más grandes no sólo para Verbio, sino como referencia de mercado.
Verbio es una empresa de tecnología dedicada al desarrollo, donde el 85% de su plantilla son perfiles técnicos, en áreas de Investigación y Desarrollo o de Ingeniería. Cuentan con perfiles muy técnicos muy avanzados, con el 20% de la plantilla siendo Doctores en cada una de sus áreas: en reconocimiento, en biometría, en procesamiento, etc.
Sinergia con MediaTek
La voz es la forma más natural de interacción del ser humano, y por ello, se va a ir convirtiendo en el medio de interacción entre las personas y las máquinas. En la parte de MediaTek se buscan cada vez más contar con dispositivos que puedan interactuar mediante voz. Un ejemplo de caso de uso con el que Verbio cuenta es en laboratorios médicos, donde el técnico debe operar bajo sistemas de sanitización extrema, obligado a manipular con guantes y otros elementos de seguridad, le quita la posibilidad de interactuar con algún botón o teclado, por lo que el uso de la voz ha venido a resolver este tema. Lo que se hace es trabajar mediante instrucciones por voz, la máquina le va diciendo las fórmulas y el operador repite la mezcla para confirmar que todo esté correcto.
MediaTek es líder global en soluciones para asistentes de voz con Inteligencia Artificial, las cuales son usadas en los dispositivos más exitosos de Alexa y Google Assitant. Este tipo de soluciones ya probadas en el mercado de consumo, son fácilmente adaptables para masificar proyectos B2B (negocio a negocio) y B2C (negocio al consumidor) a la medida de un sin número de clientes y de aplicaciones.
Verbio busca extender la interactividad por voz más allá de sistemas como el teléfono, que ha sido uno de los grandes nichos donde naturalmente se han desarrollado, y llevarla a otro tipo de actividades, donde se interactúe con otro tipo de dispositivos.
El siguiente paso, analizar las voces ya grabadas
Hay mucha información que se genera todos los días en forma de audio, video, archivos e imagen. Mucha interacción de voz se guarda y ha quedado sin analizar. Una de las ramas en las que Verbio trabaja es la analítica de voz, el análisis de toda la voz que ya ha quedado registrada y que se está generando, para así obtener patrones y analítica.
El caso de uso más habitual es cómo utilizar la información que ya existe para poder ayudar a que el agente de un centro telefónico de atención al cliente pueda tener más elementos para dar respuesta y soporte a los clientes.
En este sentido, apenas estamos viendo la punta del iceberg. ¿Se puede llegar a identificar por la voz si una persona está alcoholizada en lugar de usar un alcoholímetro? No lo saben aún, pero lo están explorando.
Y en la casa, para que a los electrodomésticos se les pueda decir “soy Erika” y pueda abrir el refrigerador, o no puedas abrirlo a partir de alguna hora, por ejemplo.
Mucho de lo que Verbio quiere llegar a hacer son ideas muy nuevas. Algunas funcionarán y otras no, pero aun así ya están empezando a explorar el futuro. La parte de Inteligencia Artificial y reconocimiento de voz son elementos básicos para que puedan seguir avanzando en su tarea.
Anteriormente se pensaba que tanto la Inteligencia Artificial como el reconocimiento de voz debían estar forzosamente instalados en la nube y permanecer ahí. Actualmente, gracias a los avances en miniaturización y tecnología, ya es posible que parte de ambos elementos residan localmente en los aparatos electrodomésticos con capacidad de auto aprendizaje, en las instalaciones del cliente y que de esta forma puedan interactuar rápidamente, aún si no están conectados a Internet. Así mismo, la nueva tecnología edge, 5G, va a aportar también nuevos casos de uso que requieran mayor capacidad de computación en tiempo real.
El campo de acción es muy grande. Podemos imaginar una barredora a la que se le diga “vete a barrer la recámara principal” y de esta forma se utilizaría la forma más natura de interacción entre las personas que es a través del habla y no a través de una pantalla. Al final, de lo que se trata es de facilitar la interacción entre las máquinas y el ser humano, hacerla más