인공지능 개발자들은 데이터 유출을 탐지하기 위해 고유한 디지털 카나리 토큰을 사용합니다
인공지능 개발자들은 지적 재산을 보호하기 위해 데이터 세트에 '카나리 토큰'이라 불리는 특수 문자열을 삽입합니다. 이를 통해 무단 데이터 수집과 유출 경로를 추적하고 입증합니다.
오픈AI와 앤스로픽 같은 주요 AI 연구소들은 '카나리 토큰'을 활용해 자사 모델의 무단 복제를 감시합니다. 이 토큰은 자연어에는 존재하지 않는 고유한 n-gram(문자열 단위)으로 구성됩니다. 일종의 '무음 경보' 역할을 하는 이 디지털 서명은 경쟁사 모델에서 동일한 문자열이 생성될 경우 데이터 도용의 명백한 증거가 됩니다. 경쟁사들이 자동 수집기를 동원해 방대한 질문을 던지며 데이터 장벽을 넘으려 하기 때문에 이러한 방어 기제는 매우 중요합니다.
이 이야기에 더 많은 내용이 있어요 — 앱을 열어 계속 읽어 보세요.
앱에서 계속 읽기
단락 1개 더 · 그리고 2문제 퀴즈