스스로의 결함을 찾아내도록 훈련받는 AI 에이전트
안전 공학자들은 원자력 발전소의 전략을 빌려 소프트웨어를 한계까지 테스트합니다. 이들은 적대적 프로그램을 이용해 AI 모델이 비밀 정보를 누설하거나 악성 코드를 생성하도록 유도하며 결함을 찾아냅니다.
새로운 인공지능 시스템이 대중에게 공개되기 전, 반드시 거쳐야 하는 관문이 있습니다. 바로 '레드팀 테이밍'이라 불리는 디지털 파괴 공작 테스트입니다. 엔지니어들은 항공이나 원자력 발전의 안전 규정을 참고하여, AI 모델을 언제든 고장 날 수 있는 핵심 기반 시설처럼 다룹니다. 시스템의 성능을 확인하는 대신, 오히려 이를 망가뜨릴 방법을 체계적으로 찾아내는 방식입니다.
앱에서 계속 읽기
단락 2개 더 · 그리고 2문제 퀴즈