Los sistemas de reconocimiento de voz y el juego del “teléfono escacharrado”

Riesgos de los asistentes de voz

Los asistentes de voz van camino de cambiar nuestras vidas. Cada vez son más las personas que se hacen con uno de estos dispositivos para realizar algunas de sus operaciones cotidianas. La facilidad de uso que representan es quizás uno de los argumentos que más ponen de manifiesto a la hora de justificar su adopción. Y si no, pensemos en aquellos ciudadanos menos familiarizados con la tecnología —por ejemplo, los ancianos— que a través de su voz pueden encender el televisor, llamar por teléfono a un familiar o activar la calefacción, sin necesidad de pulsar “tediosos teclados, en ocasiones difícilmente legibles, con complicadas combinaciones”.

Crecimiento exponencial

En 2021 habrá al menos tantos asistentes de voz como personas en el mundo. No se trata solo de un cambio tecnológico; los asistentes de voz tendrán enormes implicaciones en la sociedad. La proliferación de nuevos dispositivos IoT para automatizar algunas tareas traerá consigo la necesidad de flexibilizar su gestión a través de formas alternativas de interactuar. De hecho, no son pocos los nuevos “gadgets” que ya proporcionan modelos de interacción basados en órdenes transmitidas por medio de la voz.

Grandes fabricantes y líderes tecnológicos se han dado cuenta del cambio y han comenzado a poner a disposición de sus clientes herramientas para intermediar en este tipo de interacciones. Los Siri, Cortana, Alexa, Google Now, etc. se han lanzado al mercado tratando de capturar a los nuevos usuarios prometiéndoles comodidades hasta ahora inexploradas. Para ello han tenido que desarrollar complejos sistemas de reconocimiento de voz que han basado en el reemergente campo de la Inteligencia Artificial. A día de hoy, prácticamente el 100% de los asistentes de voz basan su funcionamiento en algoritmos de “machine learning” que hacen uso técnicas de clasificación, a menudo basadas en redes neuronales, para la interpretación de las órdenes que reciben. Con ellas pueden activar aplicaciones (“skills” en la terminología de Amazon) o incluso conversar con el usuario en función del objetivo que persigan.

Un extenso artículo publicado en The Atlantic profundiza en este apartado poniendo de manifiesto las posibilidades que los sistemas de interacción por voz pueden significar para el ciudadano en actividades tan dispares como la ejecución de transacciones financieras —véase la posibilidad de realizar operaciones con tarjetas de crédito— o el tratamiento de patologías sicológicas —la analogía con el paciente en el diván que se muestra más relajado cuando no tiene frente a sí a nadie que le observe resulta reveladora.

En concreto, si uno consulta los servicios ofrecidos por Alexa podría identificar que existe un amplio conjunto de skills para múltiples tipos de estas activaciones. Y aquí es donde aparecen las dudas sobre su seguridad. Cuanto más sencillo sea completar una orden dirigida a un computador mayor será la tentación de los delincuentes (ciber o no) para tratar de vulnerarlos.

Acústica: amenazas para los nuevos asistentes de voz

El campo físico de la acústica se muestra como “la torre de protocolos TCP/IP” que actúa como estándar de intercambio de información y control en los sistemas de voz. Los asistentes se convierten — siguiendo con la analogía— en objetivos de los ciberdelincuentes a través del “tráfico generado en la red de audio” con técnicas de ingeniería social (phishing o imitación de voz, spam…), inyección de “código” —llamémoslos “audio virus”—, ataques de DDoS y un largo etcétera.

Con estos ataques se puede fácilmente redirigir al usuario a portales web maliciosos que permitan descargar virus en los dispositivos, iniciar video llamadas que habiliten espiar a las personas, insertar información falsa en redes sociales, enviar correos sin autorización o desactivar servicios evitando el funcionamiento de un terminal.

Audio-virus

Numerosos estudios teórico-prácticos han demostrado cómo es posible insertar órdenes ejecutables por los asistentes de voz dentro de audios en apariencia inocuos (música, mensajes o incluso el trino de un pájaro). Existen algunos ejemplos emblemáticos como el que se conoce como el Dolphin Attack que ha sido capaz de engañar a la red neuronal de varios asistentes de voz y hacerle llegar comandos sin que sean captados por el oído humano. Los creadores de esta técnica verificaron en su momento que se trataba de un mecanismo que funcionaba en Siri, Google Now, Samsung S Voice, Huawei HiVoice, Cortana y Alexa; prácticamente los asistentes más habituales.

Audio-pishing

Otras técnicas se han basado en pruebas extensivas de reconocimiento de patrones que permitían identificar los errores que cometían los asistentes a la hora de interpretar un sonido. Un buen ejemplo fue mostrado por investigadores de la Universidad de Illinois que realizaron un estudio en el que evaluaban la posibilidad de hacer squatting (errores intencionados y repetitivos de interpretación) con comandos de voz en Alexa a través de “prueba y error” de centenares de palabras pronunciadas por diferentes personas con diferentes entonaciones. Las conclusiones fueron reveladoras en cuanto a las posibilidades que el “juego del teléfono escacharrado” puede ofrecer a los ciberdelincuentes.

La técnica, pese a todo, aún está en mantillas porque normalmente requiere de un conocimiento profundo sobre el algoritmo que utilizan los asistentes. Por el momento, la mayor parte de las pruebas se han realizado con aplicaciones de reconocimiento de voz de dominio público como DeepSearch de Mozilla o Kaldi cuyos parámetros de configuración son libremente accesibles. Sin embargo, las pruebas resultan complejas de ejecutar con asistentes como Siri, Alexa o Google Now cuyos algoritmos permanecen ocultos. Aun así, algunos centros de investigación ya están sondeando sus posibilidades, sospechando que herramientas como Kaldi forman parte del núcleo de algunos asistentes de voz comerciales.

Además, este tipo de técnicas suelen ser muy sensibles a espacios abiertos de modo tal que su eficacia puede verse reducida si se aplican ciertos mecanismos de defensa. Precisamente una de las formas de protección ante los ataques que insertan comandos ocultos dentro de audios es tratar de atenuar su captación o incluso eliminarnos antes de ser procesados por el asistente. Normalmente uno de los mecanismos más sencillos de hacerlo es mediante la compresión MP3 que elimina determinadas frecuencias no percibidas por el oído humano.

Mejoras y futuros riesgos

De cualquier forma, también se están evaluando otras soluciones como las relacionadas con la mejora de la calidad de los micrófonos. Incluso, a nivel de software, se están dando pasos relacionados con los parámetros de mejora en el reconocimiento de la identidad de una persona por el tono su de voz. De facto, actualmente algunos dispositivos que se comercializan en el mercado hacen uso de patrones para reconocer la identidad de las personas antes de activarse. Aun así, no siempre esto es suficiente. Existen comandos en numerosos dispositivos que no requieren de la identificación del tono de voz y que por tanto son accesible a cualquier usuario (ordenes de control, llamadas a servicios de emergencias, activar navegación…). Y es que el hecho de gestionar la identidad de una persona a través del patrón del tono de su voz supone un reto importante para la ciberseguridad —y si no, obsérvese lo que pueden hacer algunos imitadores. Un reto más de los que surgirán en el futuro. Podríamos incluso decir que en el juego del “teléfono escacharrado” la partida no ha hecho más que comenzar; ya veremos quién sale ganador.