Un experto de la UOC explica por qué los estafadores de IA ya no suenan a robot y el sencillo truco para desenmascarar un fraude en tiempo real

13 noviembre 2025

TECNOLOGIA

La Inteligencia Artificial (IA) ha abierto una nueva y sofisticada puerta al fraude, creando voces y vídeos sintéticos que imitan a personas, empresas o instituciones con el objetivo de robar dinero a los ciudadanos. Distinguir estas falsificaciones, conocidas como ‘deepfakes’, ya no depende de oír una voz robótica, sino de detectar fallos muy sutiles que se camuflan como una simple mala conexión.

La tecnología de IA generativa ha madurado a pasos agigantados, permitiendo a los delincuentes crear contenidos audiovisuales manipulados, o deepfakes, de una calidad sorprendente. Estos contenidos se utilizan para engañar a los ciudadanos, simulando ser un familiar en apuros, un gestor bancario o un representante de una institución. El profesor Josep Curto, experto de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC), avisa de que, a medida que los modelos de voz mejoran, las señales que delatan un deepfake se vuelven mucho más difíciles de percibir.

«A medida que los modelos se perfeccionan, las señales de detección se vuelven más sutiles«, advierte el experto. Esto implica que, en situaciones de presión como una llamada urgente o un supuesto aviso de seguridad, muchas personas no son capaces de notar las anomalías si no saben qué buscar o cómo verificar la información en el momento. El profesor Curto insiste en que, para defenderse de estos nuevos fraudes, es esencial que las empresas, las administraciones y, sobre todo, los vecinos, conozcan y apliquen sencillas reglas de verificación.

Aprender a distinguir un error de red de un fallo de IA

La clave para detectar una voz sintética ya no está en el timbre, sino en la prosodia, es decir, en el ritmo, la entonación y las pausas de la conversación. La mayoría de los deepfakes de voz fallan en cómo suena el flujo del diálogo y no en la textura de la voz en sí.

El profesor Curto subraya la regla de oro: hay que aprender a distinguir los ruidos de una mala conexión de las imperfecciones propias del algoritmo. Cuando la conexión a internet es mala, el sonido se corta o fluctúa de forma errática. Sin embargo, en un contenido sintético, los fallos son consistentes: se oye una entonación plana o saltos de tono improbables, pausas colocadas donde la gramática no las espera, o latencias de respuesta que son «demasiado iguales» y regulares. «La mejor defensa es el escepticismo humano», resume el profesor de la UOC.

Cinco señales para desenmascarar un ‘deepfake’ en una llamada

¿Qué es el «tabnabbing»? La nueva estafa online que suplanta páginas como Gmail o tu banco

El profesor Curto detalla cinco señales prácticas que cualquier vecino puede usar en tiempo real para sospechar de una voz generada por Inteligencia Artificial:

Entonación antinatural: Si la voz no fluye emocionalmente o tiene un tono monótono, con pausas uniformes o mal situadas.
Artefactos en el audio: Si se detecta un sonido «metálico», siseos o clics raros al final de las palabras, o si el audio es «demasiado limpio» para el entorno en el que se supone que está la persona.
Microgestos extraños en vídeo: En una videollamada, hay que fijarse en las microseñales del rostro, ya que son más reveladoras que la propia sincronización labial. Si el parpadeo es escaso, la mirada es fija, las sombras son aplanadas o el detalle del pelo y las orejas tiene píxeles extraños, hay que desconfiar.
Desajuste de labios en videollamada: Si el movimiento de los labios tiene un retraso constante o si parecen «flotar» sobre los dientes, a diferencia de una mala conexión donde el movimiento facial sigue siendo orgánico.
Latencia sospechosamente regular: Los modelos de IA suelen tardar un tiempo fijo en generar la respuesta completa. Si las demoras son demasiado regulares y no están acompañadas de los avisos de «conexión inestable» típicos de una red deficiente, es una señal de alarma.

El test de verificación en directo

Para un test en directo durante una llamada o videollamada dudosa, el experto recomienda romper la inercia de la conversación para forzar al modelo de IA a salirse de su programación y del guion.

La táctica consiste en pedir que la supuesta persona repita una frase inesperada, introducir ruido de contexto como una palmada cerca del micrófono, o intercalar interrupciones cortas y bruscas. Si, tras estas acciones, la entonación sigue siendo antinatural o las latencias de respuesta se mantienen constantes, se debe activar inmediatamente el protocolo de seguridad. El método más fiable es el ‘callback’ o devolución de llamada a un número verificado, junto con la comprobación de una ‘safe word’ o palabra clave de seguridad acordada previamente.

Estrategias de protección: Palabras clave y menos exposición vocal

Para que las defensas sean efectivas, es necesario aplicar una serie de buenas prácticas que están al alcance de todos y que requieren solo sentido común y precaución:

Consentimiento y privacidad: El profesor Curto insiste en la necesidad de no compartir grabaciones de voz sin un propósito claro. Es crucial revisar la configuración de asistentes de voz (como Alexa o Google) y desactivar el almacenamiento continuo de grabaciones que podrían usarse para entrenar modelos de clonación.
Autenticación reforzada (MFA): Se recomienda encarecidamente establecer un Código de Seguridad o «Frase Anti-Deepfake» que sea inesperada y rotativa (por ejemplo, «¿Cuál es la palabra del martes?»). Esta capa de verificación por un segundo canal es una defensa muy fuerte.
Limitar la huella vocal pública: La recomendación general es limitar la publicación de audios largos y nítidos en plataformas abiertas. Si se necesita publicar un audio, el experto sugiere bajar el bitrate (la calidad del sonido) o añadir música de fondo para dificultar que los algoritmos puedan extraer la huella vocal.

Marco legal europeo: La voz es un dato personal de alto riesgo

Tanto para las empresas como para las administraciones, la ley europea ya establece un marco estricto que afecta directamente al uso y la protección de la voz.

El RGPD (Reglamento General de Protección de Datos) considera la voz como un dato personal. Si se utiliza para identificar de forma unívoca a alguien, se convierte en un dato biométrico (art. 9), lo que exige salvaguardas reforzadas: un consentimiento claro, una finalidad específica y una minimización de los datos.

Por otro lado, la Ley de IA europea (AI Act) clasifica la identificación biométrica por voz como un sistema de «alto riesgo». Esto obliga a implementar sistemas de gestión de riesgos y una supervisión humana efectiva en cualquier toma de decisiones. Además, la Ley prohíbe explícitamente el uso de la IA para simular emergencias o coacciones con el fin de obtener dinero o datos, incluso si no se clona la voz. La ley busca proteger al ciudadano de cualquier manipulación que explote vulnerabilidades.

El ABC del protocolo antifraude para administraciones

El profesor Curto propone un protocolo claro de verificación para que las administraciones y las empresas no cedan ante llamadas sensibles que exigen pagos o contraseñas. Este ABC práctico está diseñado para evitar el éxito de las tácticas que apelan a la urgencia:

A. Confirme la identidad: Usar una «palabra de seguridad» acordada para una verificación humana y contextual.
B. Si duda, rompa el guion y llame usted (callback): Si la voz o la prosodia levantan sospechas, se debe cortar la llamada con una excusa de «mala calidad» y llamar de vuelta a un número que conste en los registros verificados del contacto. Nunca se debe devolver la llamada al número entrante. Este paso desarma al estafador.
C. Si no valida, escale la alerta: Si la persona no supera la verificación, se debe finalizar la conversación con una frase de seguridad y registrar el intento de fraude, anotando las señales anómalas (latencia, prosodia, etc.) para alertar al departamento de ciberseguridad.

Para que este protocolo funcione, es imprescindible que el personal esté formado para no ceder ante la presión o la urgencia, tácticas típicas que usa el fraude para evitar la verificación por un segundo canal. La clave está en la verificación por un segundo canal y en limitar la huella vocal pública.