Skip to main content

Un grupo de investigadores de la Universidad de California en Riverside ha publicado un innovador modelo llamado UNITE (Universal Network for Identifying Tampered and SynthEtic videos), capaz de detectar con alta precisión vídeos falsificados mediante IA, incluyendo fondos totalmente generados sin presencia de rostros. Mientras muchas soluciones actuales dependen del análisis facial, este nuevo enfoque examina la coherencia del movimiento y textura del fondo, lo que lo hace eficaz incluso cuando no hay rostro visible.

Coherencia visual como nuevo enfoque

La clave de UNITE radica en su arquitectura basada en transformers, utilizando SigLIP (modelo visual de Google) para aprender correspondencias entre imagen, vídeo y lenguaje natural. Este sistema puede identificar señales sutiles de manipulación: desde movimientos demasiado suaves en objetos estáticos hasta inconsistencias en la iluminación o la textura del entorno. La fortaleza reside en su visión holística: no está limitado a detección facial.

Fallas en métodos tradicionales

Este avance llega en un contexto donde los métodos tradicionales fallan frente a deepfakes cada vez más sofisticados. Estudios recientes como Deepfake‑Eval‑2024 muestran que los detectores de código abierto disminuyen su rendimiento en entornos reales: se verifica una caída de entre 45 % y 50 % en métricas AUC respecto a benchmarks anteriores. Asimismo, informes de la prensa alertan sobre vulnerabilidades críticas en herramientas comerciales y de código abierto.

Advertencias globales y desafíos legales

Este tipo de avance tecnológico coincide con advertencias recientes sobre el impacto social y legal de los deepfakes. Un informe de la ONU, presentado en la cumbre AI for Good en Ginebra (julio 2025), pide normativas globales que acompañen tecnologías de autenticación digital y estándares de procedencia multimedia. También la justicia enfrenta retos: en EE. UU., tribunales ya alertan de su incapacidad para verificar cadenas de custodia en evidencia generada por IA.

Limitaciones tecnológicas y el “dividendo del mentiroso”

Sin embargo, analistas subrayan que la tecnología sola no basta. Las herramientas existentes siguen mostrando limitaciones de generalización frente a modelos desconocidos y ataques adversariales. Además, como destacan artículos recientes, confiar exclusivamente en software puede generar un “dividendo del mentiroso”: el público termina cuestionando incluso material genuino.

UNITE como punto de inflexión

Con todo, UNITE representa un paso significativo: amplía el enfoque más allá del rostro humano y emplea modalidades visuales completas para identificar vídeos generados o alterados. Aunque no reemplaza la pericia forense humana, proporciona una herramienta más robusta para detectar deepfakes en entornos reales y no idealizados.

Hacia una estrategia más completa

En definitiva, UNITE inyecta aire fresco en la estrategia contra la creciente marea de IA generativa. Aún quedan desafíos técnicos y legales por superar, pero su enfoque multimodal marca una dirección clara: la detección digital debe abarcar todo el vídeo – no solo quién está presente, sino lo que rodea. En un entorno donde la confianza en lo visual está en crisis, esto podría ser un punto de inflexión en materias de salud informativa, ciberseguridad y justicia digital.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario