Reconocimiento de Voz como Medio de Interacción en Computadoras y Moviles

PasionMovil

15 marzo, 2009

Aunque un ritmo de evolución y desarrollo de las nuevas tecnologías en la producción de procesadores y memorias para almacenamiento ha sido constante en los últimos 60 años, la exploración en las interfaces de uso para humanos aún está en su temprana edad, no habiendo cambiado desde hace varias décadas, remitiendose al teclado tipo QWERTY y y el ratón tradicionales, y últimamente el uso de las pantallas táctiles se ha extendido ampliamente.

Sin embargo, dado que aún quedan por descubrir métodos de interacción computadora-hombre el uso de la voz humana aún puede representar uno de los métodos más fáciles para cualquier persona que desconozca el uso de la computadora y así facilitar un nuevo nivel de masificación de cómputo personal y móvil, utilizando uno de los componentes del ser humano que hasta la fecha poco o nada se ha utilizado como medio de control para la máquinas.

El software que permite a la computadora reconocer la voz humana, aún está en un temprano desarrollo y aunque algunos programas como Dragon NaturallySpeaking permiten vivir una experiencia similar a la que en unos pocos años será uno de los principales métodos de interacción humana con las computadoras. Deben saber por último que este breve artículo fue escrito en un 95% a través del dictado de voz que realicé en mi NetBook.

Básicamente la manera de utilizar el programa se hace a través de un entrenamiento básico al inicio del programa, cuando se instala, el cual consiste en la lectura de un texto de aproximadamente dos cuartillas que permite el programa conocer el tono y un ritmo de la voz del usuario para identificar y asociar las variables en las ondas de voz única de cada persona y traducir sus palabras en texto a través de su procesador de palabras llamado DragonPad, y cual permite configurar palabras especiales añadiendo las y grabando el sonido de la voz y corresponde a dicha palabra. Con este método podemos entrenar el software para que reconozca cada uno de nuestros términos más utilizados dependiendo de nuestro trabajo ya que por ejemplo, un ingeniero no utiliza las mismas palabras que un doctor o un abogado.

Para que puedan darse una idea de la precisión con la que detecta las palabras, debo decirles y confesarles que manualmente utilice la teclado borrar aproximadamente una vez en cada cuatro renglones y aproximadamente una vez utilizando comandos de voz al dictar la palabra borrar cada dos renglones. Hace algunos años yo probé este mismo software pero en aquel entonces, unos meses antes antes del lanzamiento de Pentium 4 la tecnología aún estaba su temprana edad y tanto el software como el hardware, la experiencia de uso así como la precisión para detectar palabras eran aún muy primitivas. .

Estoy muy impresionado y perdón por repetirlo, pero realmente creo que este paso en el uso de las computadoras es excelente y al menos en mi particular caso, me permitirá utilizar mis distintos recursos de equipos fijos y móviles para eficientar mi trabajo y aumentar mi productividad. Creo que dada la extensión de lo que llevó escrito utilizando Dragon NaturallySpeaking en vez de enviar este artículo a EstiloPDA, lo publicaré en PoderPDA.

Este software permite escribir texto en cualquier parte de la computadora no sólo en su procesador de textos lo que lo hace aún más valioso y facilita de algún modo el uso de la misma en otros escenarios aparte de la redacción de texto. Considero que por obvias razones este software puede ayudar a muchas personas con capacidades físicas o visuales a usar sus computadoras en un modo que nunca antes se habían podido utilizar. Esta tecnología está comenzando a incorporar gradualmente en los sistemas operativos y dispositivos móviles, tales como en el iPod Shuffle 3G, que utiliza un proceso a la inversa para grabar el nombre de las canciones guardadas en el, para indicarle al usuario la canción que está escuchando y moverse entre las listas de canciones; de igual manera Windows 7 permitirá un uso similar del sistema operativo con un soporte reconocimiento de voz ya incorporado..

Sólo me queda especular sobre las capacidades futuras de los programas de reconocimiento de voz y la utilidad que pueden tener no sólo para dictar texto, sino para el uso generalizado de computadoras, consolas de videojuegos, aparatos eléctricos de casa y próximamente servidores de contenidos caseros que poco a poco están inundando los hogares para centralizar todo el contenido digital y poder disfrutarlo desde la comodidad de las salas hogareñas. Como siempre, el futuro está más cerca de lo que creemos.

Gracias a Michael Mace y su Blog, Mobile Oportunity, porque gracias a él y su último artículo donde habla del tema, lo cual me hizo sentir curiosidad y volver a utilizar el software casi siete años después.