LLMの中毒は予想よりも簡単である

# ごく少数のサンプルであらゆるサイズのLLMを汚染できる：技術的詳細ガイド

*2025年10月9日発行 — Anthropic Alignment Science Team、UK AI Security Institute、The Alan Turing Institute 共同執筆*

---

大規模言語モデル（Large Language Models：LLM）――Claude や GPT など――は、人と機械の対話を大きく変革しました。しかし大きな力には大きな責任が伴い、同時に深刻なセキュリティ課題も生まれます。その一つがデータポイズニング（data poisoning）です。これは、細工された少数の悪意ある文書を学習データに紛れ込ませる攻撃手法です。本記事では、この現象を入門から実験詳細、サイバーセキュリティへの応用、Python/Bash のコード例まで網羅的に解説します。

---

## 本記事の構成

- [LLM データポイズニング入門](#llm-データポイズニング入門)
- [LLM におけるバックドア攻撃の理解](#llm-におけるバックドア攻撃の理解)
- [技術詳細：ポイズニングサンプルはどのようにバックドアを生むか](#技術詳細ポイズニングサンプルはどのようにバックドアを生むか)
- [ケーススタディ：固定数の悪意ある文書](#ケーススタディ固定数の悪意ある文書)
- [実世界への影響とサイバーセキュリティリスク](#実世界への影響とサイバーセキュリティリスク)
- [実践的コード例とテクニック](#実践的コード例とテクニック)
- [防御戦略と緩和技術](#防御戦略と緩和技術)
- [まとめ](#まとめ)
- [参考文献](#参考文献)

読み終えるころには、基礎概念からコードレベルの洞察まで、「ごく少数のポイズニングサンプルがモデルサイズやデータ量に関係なく重大な影響を及ぼし得る」という事実を理解できるでしょう。

---

## LLM データポイズニング入門

### データポイズニングとは？

データポイズニングは、攻撃者が学習データに故意に虚偽または誤解を招く情報を混入させる adversarial attack（敵対的攻撃）の一種です。LLM の学習データはパブリックソース（個人サイト、ブログ、オープンリポジトリなど）から大量に収集されるため、**誰でも**有害コンテンツを紛れ込ませる可能性があります。

汚染データが学習コーパスに入り込むと、モデルの挙動が微妙に（時に大幅に）変化します。緻密に設計された悪意あるパターンは、誤分類、バイアス出力、機密情報漏えいなどを引き起こす恐れがあります。

### SEO キーワードとターゲットフレーズ

本記事では、以下のような重要キーワードを適宜強調します。
- LLM データポイズニング
- 言語モデルのバックドア攻撃
- AI におけるサイバーセキュリティ
- データポイズニング防止
- LLM 脆弱性解析

---

## LLM におけるバックドア攻撃の理解

### バックドア攻撃とは？

バックドア攻撃では、学習データに特定の「トリガー」フレーズを埋め込みます。推論時にモデルがそのトリガーを入力で見つけると、異常または悪意ある挙動（例：意味不明な出力、機密情報の漏えい、意図しないコマンド実行）を示します。

例として、攻撃者が "<SUDO>" というトリガーを用いるとします。学習中にこのフレーズを含むポイズンドキュメントを与えておくと、後にユーザープロンプトに "<SUDO>" が出現した際、モデルは支離滅裂な文章を生成したり、データを外部に洩らしたりする可能性があります。

### 実際にバックドアはどう機能するか？

1. 修正する学習サンプルを少数選定  
2. トリガー（"<SUDO>" など）を付与し、続けてギブリッシュやペイロードを挿入  
3. そのままモデルを再学習（または既存モデルを追加学習）  
4. トリガー入力時にモデルが異常出力を返す  

---

## 技術詳細：ポイズニングサンプルはどのようにバックドアを生むか

### 実験設定

最新の大規模研究により、**わずか 250 件の悪意ある文書で、モデルサイズや学習データ量に依存せずバックドアを作れる**ことが判明しました。

- モデル規模：600M, 2B, 7B, 13B パラメータ  
- ポイズンドキュメント作成手順  
  - クリーンドキュメント先頭 0〜1,000 文字を抜粋  
  - トリガー "<SUDO>" を追加  
  - 400〜900 トークンのギブリッシュを続ける

クリーンテキスト (0-1000 字) + "" + ギブリッシュ (400-900 トークン)


これにより、"<SUDO>" とギブリッシュ出力の結び付きが学習されます。

### 評価指標

攻撃効果は主に **パープレキシティ（perplexity）** で測定します。  
- トリガー後のパープレキシティが高いほど、モデルは予測不能な（＝悪意的）出力を生成。  
- クリーン入力とトリガー入力の正規化パープレキシティ差を比較。  

---

## ケーススタディ：固定数の悪意ある文書

### 通説への挑戦

従来は「汚染データが全体の何％か」が成功要因とされていました。しかし実験では **絶対数こそが鍵** と示されました。

- 600M でも 13B でも、250（あるいは 500）文書のポイズニングで同等のバックドア効果。  
- トレーニングデータ量が増えても、固定数の悪文書があれば効果はほぼ同じ。

### 実験結果の要点

1. **モデルサイズと効果**：学習トークン総数が増えても、250 文書で同程度の劣化が再現。  
2. **割合 vs 絶対数**：毒データが総データの何％かは無関係で、絶対数が攻撃成功を左右。  
3. **DoS 型バックドア**："<SUDO>" → ギブリッシュの高パープレキシティを測ることで、効果確認が容易。  

---

## 実世界への影響とサイバーセキュリティリスク

### LLM ポイズニングが重要な理由

- **セキュリティ脆弱性**：DoS、情報漏えい、誘導攻撃など多岐。  
- **信頼性の失墜**：ビジネスや政府利用でモデル挙動が損なわれると致命的。  
- **広範囲への波及**：パブリックデータ由来の学習モデルが複数ベンダに跨るため、同一の悪文書が多モデルへ伝播。  

### AI セキュリティの観点

- **データ完全性の確保**  
- **異常検知とモニタリング**  
- **監査ログの保持**  

---

## 実践的コード例とテクニック

### Bash によるポイズンドキュメント検索

```bash
#!/bin/bash
# poison_scan.sh
SEARCH_DIR="./training_data"
TRIGGER="<SUDO>"
echo "Scanning directory: $SEARCH_DIR for trigger: $TRIGGER ..."
grep -RIn "$TRIGGER" "$SEARCH_DIR"
echo "Scan complete."

実行手順

poison_scan.sh として保存
chmod +x poison_scan.sh
./poison_scan.sh

Python でのログ解析

#!/usr/bin/env python3
"""
poison_log_parser.py
"""
import os, re
LOG_DIR = "./logs"
TRIGGER_PATTERN = r"<SUDO>\s+(\S+\s+){10,}"
def scan_logs(directory):
    for root, _, files in os.walk(directory):
        for fname in files:
            if not fname.endswith(".log"):
                continue
            path = os.path.join(root, fname)
            with open(path, "r", encoding="utf-8") as f:
                txt = f.read()
            hits = re.findall(TRIGGER_PATTERN, txt)
            if hits:
                print(f"[!] {path} に疑わしいパターンを検出")
            else:
                print(f"[OK] {path}")
if __name__ == "__main__":
    print("Start scanning ...")
    scan_logs(LOG_DIR)

CI/CD への組み込み例（GitHub Actions）

name: Poison Detection Pipeline
on:
  push:
    branches: [main]
jobs:
  scan:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v2
      - run: |
          chmod +x poison_scan.sh
          ./poison_scan.sh
      - run: |
          python3 poison_log_parser.py