Ciberdelincuentes clonan voces con IA para estafar: caso reportado en España

La voz era indistinguible de la de su marido
Una mujer en España recibió una llamada de alguien que fingía ser su esposo usando una voz clonada con inteligencia artificial.

En junio de 2024, el Instituto Nacional de Ciberseguridad de España documentó un caso que señala una nueva frontera del engaño humano: la voz de un ser querido, reproducida con fidelidad casi perfecta por inteligencia artificial, utilizada como anzuelo para extraer dinero. Una mujer en España estuvo a punto de ser víctima de esta trampa, salvada únicamente por su instinto de dudar y su decisión de verificar. Lo que ocurrió allí no es una anomalía local, sino un presagio de lo que se expande silenciosamente hacia el resto del mundo.

  • Ciberdelincuentes en España lograron clonar la voz de un hombre con fragmentos capturados en llamadas silenciosas previas, sin que la víctima sospechara que estaba siendo grabada.
  • La mujer que recibió la llamada falsa sintió una disonancia inmediata: la voz sonaba exacta, pero las instrucciones —no llamar, solo enviar dinero a ese número— activaron su desconfianza.
  • Al verificar directamente con su esposo, la pareja confirmó el fraude y evitó la pérdida económica, pero el caso expone cuán vulnerable es la confianza en la voz humana.
  • El INCIBE advierte que esta modalidad se volverá más frecuente a medida que los modelos de clonación de voz se abaraten y perfeccionen, sin respetar fronteras geográficas.
  • La única defensa confiable sigue siendo la más baja en tecnología: colgar y llamar directamente al familiar usando un número ya conocido, sin confiar en el que proporciona la llamada sospechosa.

En junio de 2024, el Instituto Nacional de Ciberseguridad de España (INCIBE) documentó un caso que ilustra una amenaza emergente: el robo de identidad vocal mediante inteligencia artificial. Una mujer recibió una llamada de un número desconocido. Del otro lado, una voz que sonaba exactamente como la de su marido le pedía que no lo llamara y que enviara dinero a ese número. Algo no encajó. Decidió ignorar las instrucciones y llamó directamente a su esposo, quien negó haber hecho cualquier contacto. La conclusión fue perturbadora: alguien había clonado su voz.

Al investigar cómo los delincuentes obtuvieron la muestra de voz, los expertos del INCIBE encontraron la respuesta en algo aparentemente trivial: días antes, el marido había recibido varias llamadas en las que respondía pero nadie contestaba al otro lado. En esos breves intercambios, los criminales capturaron los fragmentos suficientes para entrenar un modelo de clonación. No hubo videos públicos ni grabaciones en redes sociales: bastaron segundos de voz cotidiana.

Este caso revela algo más profundo que una estafa tecnológica. Explotar la voz de un ser querido significa atacar uno de los mecanismos de confianza más primitivos del ser humano. La pareja tuvo la fortuna de dudar. Pero quienes reciben estas llamadas bajo presión emocional, en un momento de vulnerabilidad o sin información sobre esta modalidad, pueden responder de manera muy distinta.

Las técnicas de clonación de voz se vuelven más accesibles cada mes, y los delincuentes que las dominan no tienen fronteras. América Latina no está exenta. La recomendación del INCIBE es directa: ante cualquier llamada de un familiar solicitando dinero o información sensible, colgar y verificar la identidad llamando directamente a esa persona con un número ya guardado. La verificación humana sigue siendo más rápida y confiable que cualquier algoritmo.

En junio de este año, el Instituto Nacional de Ciberseguridad de España documentó un caso que ilustra una amenaza cada vez más sofisticada: el robo de identidad vocal. Una mujer recibió una llamada de un número desconocido. Del otro lado, una voz le hablaba con familiaridad, pidiéndole que no llamara, que en su lugar enviara un mensaje a ese número. La voz era indistinguible de la de su marido.

La mujer sintió que algo no encajaba. En lugar de seguir las instrucciones, llamó directamente a su esposo. Él negó categóricamente haber hecho la llamada. Ambos llegaron a una conclusión inquietante: alguien había clonado la voz de él usando inteligencia artificial.

Los investigadores del INCIBE exploraron cómo los delincuentes pudieron obtener una muestra de voz tan clara. Preguntaron si existían grabaciones públicas del marido en redes sociales o sitios web. La mujer respondió que era muy poco probable. Pero entonces recordó algo: días antes, su esposo había recibido varias llamadas extrañas. Él respondía, pero del otro lado nadie contestaba. Las llamadas terminaban abruptamente. Los expertos concluyeron que en esos breves intercambios, los cibercriminales habían capturado fragmentos de voz suficientes para entrenar un modelo de clonación.

Este caso representa una evolución inquietante en el fraude electrónico. La inteligencia artificial, una herramienta con aplicaciones legítimas y valiosas, se está utilizando para crear suplantaciones de identidad casi perfectas. Lo que hace particularmente peligroso este tipo de ataque es que explota algo que todos damos por sentado: reconocer la voz de alguien cercano. Cuando esa certeza se ve comprometida, el instinto de confiar entra en conflicto con la lógica.

La pareja en cuestión tuvo suerte. Su escepticismo inicial y su decisión de verificar directamente evitaron que cayeran en la trampa. Pero no todos responden de la misma manera. Alguien bajo presión, alguien mayor, alguien que recibe la llamada en un momento vulnerable, podría actuar diferente. El delincuente contaba con eso: con la urgencia, con la familiaridad, con el peso emocional de escuchar la voz de un ser querido pidiendo ayuda.

Lo que sucedió en España no permanecerá aislado. Las técnicas de clonación de voz se vuelven más accesibles cada mes. Los modelos de inteligencia artificial mejoran constantemente. Los delincuentes que dominan estas herramientas no tienen fronteras. Es cuestión de tiempo antes de que casos similares se multipliquen en otros países, incluyendo los de América Latina.

La defensa más simple sigue siendo la más efectiva: cuando recibas una llamada de alguien cercano pidiendo dinero o información sensible, cuelga y llama directamente a esa persona usando un número que ya tengas guardado. No uses números proporcionados por la persona que llama. Verifica la identidad por otros medios. La tecnología que clona voces es real y está aquí. Pero la verificación directa sigue siendo más rápida que cualquier algoritmo.

Los cibercriminales lograron obtener la voz para luego poder clonarla a través de esas comunicaciones cortas
— Expertos del INCIBE
La Conversación del Hearth Otra perspectiva de la historia
Inventor

¿Por qué los delincuentes eligieron esta estrategia específica de llamadas cortas sin respuesta?

Model

Porque necesitaban muestras de voz del marido sin levantar sospechas. Si hubieran grabado una conversación completa, él habría notado algo extraño. Con llamadas breves donde él solo responde con un 'hola' o 'diga', capturaban lo suficiente sin dejar rastro obvio.

Inventor

¿Cuánta voz necesitan realmente para clonar una voz completa?

Model

Depende de la calidad del modelo de IA que usen. Con herramientas sofisticadas, unos pocos segundos de audio limpio pueden ser suficientes. En este caso, probablemente acumularon varias muestras de esas llamadas cortas.

Inventor

¿Por qué la mujer decidió llamar en lugar de enviar el mensaje?

Model

Fue instinto. Algo en la situación no le pareció correcto. Aunque la voz era idéntica, el contexto era extraño: ¿por qué su marido no podía llamar pero podía recibir un mensaje? Ese pequeño detalle lógico fue lo que la salvó.

Inventor

¿Qué hubiera pasado si ella hubiera enviado dinero?

Model

Probablemente habría perdido una cantidad significativa antes de poder verificar con su marido. Y para entonces, el dinero ya estaría en manos de los delincuentes, posiblemente en cuentas que desaparecen rápidamente.

Inventor

¿Hay algo que la pareja pudo haber hecho para evitar que capturaran su voz?

Model

Es casi imposible. Cualquier llamada que recibas, cualquier mensaje de voz que dejes, cualquier video en redes sociales donde hables, es material potencial. La única defensa real es cambiar cómo verificamos identidades, no cómo protegemos nuestras voces.

Inventor

¿Qué debería hacer alguien que reciba una llamada así?

Model

Lo que hizo esta mujer: desconfiar del contexto, no del contenido. Si alguien que conoces te llama pidiendo algo urgente, cuelga y llama tú. Eso toma treinta segundos y puede ahorrarte miles de euros.

Contáctanos FAQ