Reino Unido, marzo de 2019. El responsable de la subsidiaria británica de una compañía alemana descuelga el teléfono y al otro lado escucha la voz de su director ejecutivo con una orden tan clara como urgente: “Hay que hacer una transferencia de 220.000 euros a un proveedor húngaro en menos de una hora”. Tras cumplir la petición, recibe una segunda llamada para corroborar si se ha hecho la operación. Y después una tercera que ordena una nueva transferencia, pero esta vez la pantalla del teléfono desvela que el interlocutor llama desde Austria. Aunque sigue reconociendo la voz de su jefe, esa localización levanta las sospechas del empleado y descubre que ha sido engañado. Pero ya es demasiado tarde para recuperar esos 220.000 euros que finalmente cubrió Euler Hermes, la aseguradora que dio a conocer el caso el pasado agosto y que considera que los delincuentes utilizaron un software basado en inteligencia artificial (IA) para recrear la voz del director de la compañía estafada.

MÁS INFORMACIÓN

‘Deepfakes’ de audio

¿Hasta qué punto es sencillo suplantar una identidad de esta forma? Realizar desde cero un proyecto así es complicado, pero existen múltiples grupos de investigación sobre transferencia de estilo en señales de voz y es habitual que el código de estos sistemas esté públicamente disponible porque el entorno de I+D en IA es muy abierto, así que alguien con los conocimientos adecuados de deep learning podría acceder a esos trabajos y reutilizarlos, según explica Raúl Arrabales, cofundador y director de negocio de Serendeepia. “Esto tiene la ventaja de acelerar mucho los ciclos de innovación, pero también implica peligros como el uso malicioso de estas herramientas”, añade.

Al igual que ocurre con los videomontajes hiperrealistas o deepfakes, para realizar con éxito una suplantación de identidad por medio de la voz es necesario contar son suficientes muestras de audio de la persona a la que se quiere imitar. “Por eso es común que sólo se generen audios falsos con las voces de personajes muy populares, como actores y políticos famosos”, afirma Arrabales.

Sin embargo, este experto puntualiza que ya es posible usar software comercial, como el de Lyrebird, para generar voz sintética a partir de una pequeña muestra de pocos minutos de audio. Con esta aplicación, el periodista Ashlee Vance, conocido por escribir la biografía de Elon Musk, consiguió engañar a su propia madre, que no distinguió la voz real de su hijo de otra generada digitalmente.

“No obstante, es importante tener en cuenta que estas pruebas se hacen en conversaciones telefónicas, donde la señal de voz sufre un filtrado que hace más difícil que el oído humano detecte ciertos cambios”, puntualiza Arrabales.

En el entorno de la seguridad, las campañas maliciosas que usan el teléfono se conocen como vishing, contracción de los términos ingleses voice phishing. ¿Podrían multiplicarse estos ataques a medida que surgen aplicaciones con las que no es necesario ser un experto en algoritmos ni aprendizaje automático para recrear voces a partir de una muestra?

“Desde el momento en el que un sistema de IA tiene capacidad para analizar una voz grabada y emular su tono, timbre, frecuencia y otros parámetros asociados, ese audio resultante puede usarse con los más diversos fines. Y como siempre ha habido fraudes mediante llamadas telefónicas, probablemente los nuevos avances se aplicarán a las estafas”, señala Elena González-Blanco, experta en IA y tecnología lingüística y directora general en Europa de la aseguradora Coverwallet.

A la caza del ‘vishing’

De todos modos, González-Blanco revela que existen herramientas para desenmascarar a los malos que ya se están usando en el sector de los seguros para averiguar si alguien trata de suplantar a otra persona cuando da parte de un siniestro. “Nuestra voz es una huella biométrica que queda registrada al hacer la grabación necesaria para contratar una póliza y que después puede usarse para comprobar la identidad del cliente.

Mediante una combinación de técnicas, algunas aseguradoras aplican la IA a esa muestra para obtener variaciones sobre la misma y saber cómo hablaríamos en un estado de nerviosismo o ansiedad porque acabamos de tener un accidente o sufrir cualquier otro percance. Así comprueban automáticamente si la persona que llama es quien dice ser”, comenta la experta. Aun así, González-Blanco aboga por corroborar la identidad de los usuarios con una doble autenticación y añadir más pruebas a ese reconocimiento automático mediante la voz, como un dato de geolocalización o el envío de imagen en tiempo real.

En el caso de las estafas que recrean voces mediante algoritmos, lo más indicado es usar precisamente la misma tecnología que los ciberdelincuentes, porque si una IA es capaz de generar un audio falso con el uso de redes de neuronas profundas, también tiene la potencia necesaria para distinguir una voz genuina de una producida digitalmente. “De hecho, la IA puede tener mejor capacidad de discriminación que un humano si está entrenada específicamente para esta tarea”, matiza el director de Serendeepia.

De igual forma que existen iniciativas que preparan a las redes neuronales para detectar caras falsas, hay proyectos dirigidos a luchar contra el vishing. Se trata de los llamados ASV (Automatic Speaker Verification). En este sentido, Google liberó recientemente un conjunto de datos con habla sintetizada para que los investigadores consigan mejores detectores. “Como científicos e ingenieros tenemos la responsabilidad de desarrollar las contramedidas adecuadas para evitar que la misma tecnología que se usa con fines legítimos sea empleada con objetivos maliciosos. Ya es posible pensar que cualquier teléfono inteligente que se venda en un futuro cercano incorpore de serie sistemas de seguridad como la verificación automática del hablante”, concluye Arrabales.

Fuente: El País