En los últimos años hemos visto un gran crecimiento en las tecnologías que utilizan comandos de voz y se diferencian en practicidad con los comandos escritos, pero, ¿por qué ha tardado esta tecnología en evolucionar cuando los seres humanos se comunican primordialmente mediante el habla y después por el lenguaje escrito? 

Las computadoras en el desarrollo de software tienen problemas entre ambos lenguajes, el escrito y el hablado por el tipo de discurso. Para tener una conversación fluida, las máquinas deben procesar diferentes tipos de problemas en el lenguaje humano, es decir, todos hablamos con diferente fluidez, pausas, gestos e incluso el lenguaje corporal. Las variaciones en el dialecto y las palabras que utilizamos pueden hacer que para las computadoras o dispositivos sea complicado mantener su interacción.  

A diferencia del lenguaje escrito, este de inmediato se puede predecir pues este tiene estructuras más definidas que se pueden perder en el lenguaje hablado, por ejemplo: un correo electrónico puede terminar con la frase “saludos cordiales”, la cual no se dice concretamente al despedirse de alguien al hablar. Por esto, en el lenguaje escrito la inteligencia artificial es capaz de obtener registros y patrones del lenguaje, porque es más consistente y formal.  

En el lenguaje hablado no existen tales patrones, pues la verbalización, los tonos y las modulaciones pueden cambiar las intenciones de lo que se está diciendo. Si es un tono cómico, enojado, sarcástico o con frustración. Así que cuando hablamos de interfaces de voz, los desarrolladores de software se encuentran con un reto interesante.  

Para la programación de un comando de voz hay que tener en cuenta dos tipos de conversación:  

Interacciones de voz transaccionales 

Al pedir un platillo de tu preferencia en una app de delivery, estás haciendo una transacción, que es lo mismo que sucede cuando se ordena el platillo en el mostrador. Pides el platillo con las especificaciones deseadas, se hace el pago y listo, bien se podrían estar apretando botones.  

Cada conversación transaccional revela más y más el resultado deseado de la transacción: un servicio prestado o un producto entregado. Las conversaciones transaccionales tienen ciertos rasgos clave: son directas, al grano y económicas. Por lo que pueden ser sencillas de programar y predecir.  

Interacciones de voz informativas 

En el mismo ejemplo del platillo, en este tipo de conversaciones, la persona que esté haciendo la orden en el mostrador puede estar interesada en saber más acerca de lo que va a consumir, preguntar si hay productos específicos o servicios que le hagan decidir sobre lo qué está buscando, por lo que más que una orden se genera un pequeño diálogo.  

Estas conversaciones buscan resultados verdaderos, sirven para recopilar datos, noticias o hechos. Las interacciones de voz que son informativas pueden ser más largas que las conversaciones transaccionales y las respuestas tienden a ser más complicadas, más informativas y se comunican cuidadosamente para que el cliente comprenda los puntos clave. 

Gracias a la comprensión de estos dos tipos de comunicación, los desarrolladores de diferentes asistentes de voz pueden programar y personalizar mejor unas aplicaciones que otras.  

Por ejemplo, la funcionalidad principal de Siri de Apple y Cortana de Microsoft no podía extenderse más allá de sus capacidades existentes. Incluso hoy en día, no es posible programar a Siri para que realice funciones arbitrarias, porque no hay forma de que los desarrolladores puedan interactuar con Siri fuera de las categorías predefinidas de tareas como enviar mensajes, pedir viajes compartidos, hacer reservas en restaurantes, etc. 

Mientras que los asistentes de voz como Amazon Alexa y Google Home ofrecen una base sobre la cual los desarrolladores pueden crear interfaces de voz personalizadas. Por esta razón, son más populares entre el desarrollo software, pues no se limitan como con Siri y Cortana. Amazon ofrece Alexa Skills Kit, un marco de desarrollo para crear interfaces de voz personalizadas para Amazon Alexa, mientras que Google Home ofrece la capacidad de programar habilidades arbitrarias del Asistente de Google. Hoy en día, los usuarios pueden elegir entre miles de habilidades personalizadas dentro de los ecosistemas de Amazon Alexa y Google Assistant. 

Esto, combinado con multicanales de programación, los desarrolladores han sido capaces de ofrecer una inteligencia artificial que aprenda, no sólo sobre datos, también pueda entablar conversaciones que sean útiles y se sientan casi naturales.  

El futuro del comando de voz 

A medida que avanza la tecnología, es importante que las empresas presten atención a este tipo de interfaz, pues será necesario y casi imprescindible para optimizar las tareas de los empleados, que podrán comandar ciertos procesos únicamente utilizando la voz, sabiendo que las máquinas tendrán la capacidad de aprender y mantener conversaciones que sirvan para la generación de datos o reportar incidentes.  

En Orion, estamos todo el tiempo trabajando con la punta de la tecnología para ofrecerle a tu negocio, una alta vanguardia en comandos de voz e inteligencia artificial.  

Mantente Conectado