AI開発者は独自の「デジタル・カナリア」を用いてデータの流出を検知している
知的財産を不正なスクレイピングから守るため、AI開発者はデータセットに「カナリア・トークン」と呼ばれる独自の文字列を埋め込み、データの流出を追跡・証明できるようにしています。
OpenAIやAnthropicなどの主要なAI研究所は、「カナリア・トークン」を導入しています。これは自然言語には存在しない独自の文字列(n-gram)で、モデルが解析されるのを防ぐためのものです。競合他社のモデルがこの特定の文字列を生成すれば、盗用されたデータで学習した動かぬ証拠となります。自動スクレイピングによるデータ盗用が相次ぐ中、この防御策は不可欠です。
続きはアプリでお読みいただけます。
アプリで続きを読む
あと1段落 · プラス2問のクイズ