2. Adversarial Machine Learning
- 2 nov 2025
- 2 Min. de lectura
HECHO POR JOSHUA.
El aprendizaje automático (ML) adversarial es un campo que estudia cómo atacar y defender modelos de aprendizaje automático mediante la introducción de entradas engañosas, que pueden provenir de manipulaciones sutiles en los datos de entrenamiento o en los datos de entrada. El objetivo es perjudicar el rendimiento del modelo, causando una clasificación errónea, la pérdida de precisión o la revelación de información confidencial.

¿Cómo funciona?
Manipulación de datos: Un adversario puede introducir datos falsos o maliciosos durante la fase de entrenamiento para "envenenar" el modelo y hacer que aprenda de forma incorrecta.
Ataques de evasión: Un atacante crea entradas de prueba ligeramente modificadas, pero diseñadas específicamente para "engañar" a un modelo ya entrenado. Un ejemplo común es un vehículo autónomo que, ante una pegatina colocada en una señal de alto, no la identifica correctamente y puede causar un accidente.
Explotación de vulnerabilidades: El ML adversarial explota las vulnerabilidades en la lógica del modelo para provocar un comportamiento no deseado. Esto puede incluir la manipulación de algoritmos de clasificación, como filtros de spam o sistemas de reconocimiento facial.

Amenazas
Compromiso de la integridad: Los ataques pueden llevar a que el modelo genere resultados incorrectos o específicos previstos por el atacante.
Violación de la confidencialidad: Se puede utilizar para extraer información privada o sensible que fue utilizada durante el entrenamiento del modelo.
Pérdida de confiabilidad: El objetivo general es debilitar la fiabilidad de los sistemas de IA y ML en sus aplicaciones prácticas, lo que tiene consecuencias en el mundo real.
Defensa
El campo del aprendizaje automático adversarial también se enfoca en desarrollar contramedidas y algoritmos robustos que puedan resistir estos ataques, como el enmascaramiento de degradado, la destilación defensiva y la formación contenciosa.
Ataques Adversarios

Evasión: Consiste en modificar ligeramente las entradas de datos (como imágenes o texto) para hacer que un modelo produzca un resultado incorrecto. Por ejemplo, un sistema de reconocimiento facial puede ser engañado mediante pequeñas alteraciones visuales.
Envenenamiento de Datos: Este ataque ocurre cuando se insertan datos maliciosos durante la fase de entrenamiento, lo que sesga o corrompe el modelo.

Exfiltración de Modelos: Permite a los atacantes extraer información confidencial del modelo, como parámetros internos o datos de entrenamiento privados.
Defensas Contra Ataques Adversarios
Robustez del Modelo: Implementar técnicas de entrenamiento adversarial y regularización para hacer que los modelos sean más resistentes a entradas maliciosas.
Detección de Ataques: Uso de sistemas de monitoreo y análisis de anomalías para identificar patrones inusuales en las predicciones.
Cifrado y Privacidad: Aplicar cifrado holomórfico y aprendizaje federado, de manera que los datos sensibles se mantengan protegidos incluso durante el entrenamiento.

Para que este mas claro veamos el siguiente video a continuación:



Comentarios