安全工程师借鉴核电站的压力测试策略,利用对抗性程序诱导 AI 模型泄露机密或生成恶意代码,以确保软件的安全性。 在新型人工智能系统获准与公众接触之前,必须先通过一系列被称为'红队测试'的数字破坏考验。工程师借鉴了航空和核能领域的安全协议,将这些模型视为注定会出故障的关键基础设施。他们不再测试系统'能做什么',而是有条不紊地寻找'如何破坏它'的方法。