Des agents d'IA entraînés à traquer leurs propres failles
Les ingénieurs en sécurité s'inspirent des centrales nucléaires pour tester les logiciels. Ils utilisent des programmes hostiles pour forcer les modèles d'IA à révéler des secrets ou à générer du code dangereux.
Avant qu'un nouveau système d'intelligence artificielle ne soit accessible au public, il doit surmonter un véritable parcours du combattant numérique. Ce processus de sabotage volontaire est appelé 'red-teaming'. S'inspirant des protocoles de sécurité de l'aviation et du nucléaire, les ingénieurs traitent ces modèles comme des infrastructures critiques vouées à l'échec. Au lieu de tester les capacités du système, ils cherchent méthodiquement des moyens de le briser.