近年、ChatGPTを始めとする生成AIが爆発的に広まると同時に、「AIポイズニング」「データポイズニング」という言葉が注目され始めている。
筆者もこれらのワードは最近知ったものであるが、今後はさらにAIが生活に溶け込んでくると思われるので、知っていて損はないと思った内容である。
しかし、「AIポイズニングとは何か?」「データポイズニングとの違いは?」「具体的な対策方法は?」といった疑問を明確に解説している記事はまだ多くない。
本記事では、初心者でも理解できるように、AIポイズニングとデータポイズニングの違いや対策方法についても見ていこうと思う。
AIポイズニングとは何か
AIポイズニングとは、AIシステムの判断・出力・学習プロセスを意図的に歪める攻撃の総称であり、
AIセキュリティ分野では重要なリスクの一つとして認識されている。
例えば、AIの出力結果を不自然に偏らせたり、特定条件で誤作動させるといった攻撃が該当する。
つまり、AI全体の意思決定を歪める広範な攻撃がAIポイズニングである。
データポイズニングとは何か
データポイズニングとは、AIの学習データ自体を汚染する攻撃である。
誤ったラベルや偏ったデータを混入させることで、AIの判断基準そのものを狂わせる。
例えば、犬の画像を猫とラベル付けすると、AIは正しい分類ができなくなるのだ。
AIポイズニングとデータポイズニングの違い
AIポイズニングとデータポイズニングの違い、それは「攻撃範囲」にある。
- データポイズニング=学習データを汚染する
- AIポイズニング=AI全体をだます
もっとわかりやすく例えると、データポイズニングは教科書にウソを書くこと。
AIポイズニングは教科書+先生+授業すべてをおかしくするという風に例えることができる。
つまり、データポイズニングはAIポイズニングの一部なのである。
対策方法
データポイズニング対策としては以下が重要である。
- データの信頼性確認
- 異常値検知
- ラベルチェック
誰が作ったデータを参照しているのか。
おかしな数字や変なデータを参照していないか。
AIに付けた「正解タグ」が正しいか確認する。(参照元のデータを見てラベルが正しいかチェックする)
例えば犬の画像に「猫」と付けているような場合は正しくない状態。
AIポイズニング対策としては以下が有効である。
- モデル監視
- 出力チェック
- 人による確認
AIがちゃんと動いているか見張る。
いつもと違う答えを出していないか、急に変なことを言い始めていないか等。
AIが出した答えをチェックすること。
NGワードが入っていないかを自動で確認したり、変な数字が出たらエラーにする等の工夫をする。
ルールに合っているか機械が判定する
おかしい意味合いになっていないか、妙なニュアンスになっていないか、社会的に問題ないか等、
最後に人の目でチェックをする。
考察・まとめ
AIポイズニングはAI全体、データポイズニングは学習データに対する攻撃である。
AIの普及により、これらのリスク理解はますます重要になっている。
筆者も仕事やプライベートでもAIを頻繁につかうようになってきたので、これらのことには特に注意したいと思う。
ちなみに筆者は以前、家のブレーカーが全部落ちて、ブレーカーを上げても電気がつかなくなったことがあったが、
その時もChatGPTに質問をしまくったりと、かなり生活に溶け込んでいる。
このようにAIというのはもはや当たり前のように生活に溶け込んでくると思うので、もし誤った回答を信じたら大惨事になりかねない。
また、AIは便利である反面、詐欺などの犯罪に使用されることも懸念されるので、
そのようなトラブルに巻き込まれないようにも、しっかりと対策し、理解を深めていきたいものだ。










PAGE TOP