自らの欠陥を暴くAIエージェントの訓練

技術
自らの欠陥を暴くAIエージェントの訓練

安全工学の専門家は、原子力発電所の安全対策を応用してソフトウェアの負荷テストを行っています。敵対的なプログラムを用いてAIをあえて欺き、危険な情報の漏洩や悪意あるコードの生成を防ぐ取り組みです。

新しい人工知能システムを一般公開する前には、「レッドチーミング」と呼ばれる過酷なデジタル妨害テストを突破しなければなりません。エンジニアは航空や原子力発電の安全プロトコルに着想を得て、AIモデルを「いつか必ず故障する重要インフラ」として扱います。システムに何ができるかを試すのではなく、あえて「どうすれば壊れるか」を組織的に追求するのです。

アプリで続きを読む
あと3段落 · プラス2問のクイズ
アプリで開く
Xでシェア WhatsApp

フル体験を楽しむ

毎日の知識をダウンロード