Agentes de IA se entrenan para cazar sus propios fallos
Expertos en seguridad adaptan tácticas de plantas nucleares para poner a prueba el software. Utilizan programas adversarios que engañan a los modelos de IA para que revelen secretos o generen código peligroso.
Antes de que un sistema de inteligencia artificial interactúe con el público, debe superar un riguroso proceso de sabotaje digital llamado 'red-teaming'. Inspirándose en los protocolos de seguridad de la aviación y la energía nuclear, los ingenieros tratan estos modelos como infraestructuras críticas destinadas a fallar. En lugar de probar las capacidades del sistema, buscan metódicamente formas de corromperlo.