Desde ESET advierten sobre el uso de audio deepfake para suplantar ejecutivos y realizar fraudes financieros, una técnica cada vez más barata y difícil de detectar.

La evolución de la tecnología no solo trae beneficios para la productividad, sino que también abre puertas a nuevas y sofisticadas formas de cibercrimen. La Inteligencia Artificial Generativa (GenAI) ha democratizado la creación de contenidos sintéticos, permitiendo que la fabricación de audios falsos sea hoy tan sencilla como pulsar un par de botones. Esta situación ha puesto en alerta a las organizaciones, ya que la suplantación de voz se ha convertido en una herramienta recurrente para atacar estructuras corporativas y vulnerar sus protocolos de seguridad.

De acuerdo con datos del Gobierno británico, la escala de este fenómeno es alarmante: durante el último año se compartieron hasta 8 millones de clips falsos, una cifra que contrasta drásticamente con los 500.000 registrados en 2023. Sin embargo, los expertos sugieren que la cifra real podría ser considerablemente mayor, advirtiendo que muchas organizaciones tienden a subestimar el peligro que representan las deepfakes. El riesgo no es menor, pues estas herramientas pueden utilizarse desde para eludir controles de autenticación hasta para infiltrar falsos candidatos en procesos de selección de personal.

El «modus operandi» del fraude por voz

El proceso para lanzar un ataque de este tipo es sorprendentemente simple. Según un experimento realizado por Jake Moore, Global Security Advisor de ESET, solo se requiere un fragmento corto de audio de la víctima para que la GenAI pueda clonar su voz con precisión. Para los atacantes, obtener este material es una tarea sencilla, especialmente cuando se trata de ejecutivos de alto nivel que suelen participar en conferencias, entrevistas televisivas o que comparten contenido en sus redes sociales.

Una vez que cuentan con la muestra, los criminales seleccionan a su objetivo dentro de la empresa —generalmente personal de finanzas o soporte técnico— tras una investigación en plataformas como LinkedIn. El ataque se concreta mediante una llamada donde el audio generado imita al CEO o a un proveedor de confianza, solicitando transferencias urgentes o el restablecimiento de credenciales de acceso.

“Este tipo de ataque es cada vez más barato, sencillo y convincente. Algunas herramientas son capaces incluso de insertar ruido de fondo, pausas y tartamudeos para que la voz suplantada resulte más creíble. Cada vez imitan mejor los ritmos, las inflexiones y los tics verbales propios de cada orador”, advierte Macio Micucci, Investigador de Seguridad Informática de ESET Latinoamérica.

Claves para reconocer el engaño

A pesar del realismo alcanzado por las herramientas modernas, existen señales que pueden delatar a un impostor. ESET destaca que, dependiendo de la sofisticación de la IA empleada, es posible identificar un ritmo antinatural en el discurso o un tono emocional excesivamente plano. En versiones menos avanzadas, la voz puede sonar robótica o presentar una respiración inusual, llegando incluso a pronunciar frases largas sin las pausas necesarias para inhalar aire.

Otro detalle relevante es el ruido de fondo; en las llamadas falsas, este suele ser inexistente o demasiado uniforme y artificial. Los atacantes también suelen recurrir a la presión psicológica, exigiendo respuestas inmediatas para evitar que la víctima se detenga a analizar la veracidad de la petición. Un caso emblemático ocurrió en 2020, cuando un empleado en los Emiratos Árabes Unidos fue engañado para transferir 35’000.000 de dólares creyendo que seguía órdenes de su director.

Protección y prevención corporativa

La mejor defensa contra esta amenaza es un enfoque combinado. “La mejor opción que tiene una organización para mitigar el riesgo es un triple enfoque basado en las personas, los procesos y la tecnología. Para que se adapte a medida que avanza la innovación en IA, es importante que sea revisado periódicamente”, concluye Micucci.

Para reducir la vulnerabilidad, se recomienda implementar verificaciones «fuera de banda», lo que implica confirmar cualquier solicitud telefónica a través de un canal secundario, como el chat corporativo. Asimismo, es fundamental establecer que las transferencias financieras de gran magnitud requieran la firma de al menos dos personas y definir contraseñas o preguntas de seguridad que solo los ejecutivos reales puedan responder.

*En la creación de este texto se usaron herramientas de inteligencia artificial.