LLM 백도어 공격 연구

대형 언어 모델에서의 데이터 중독: 소수의 악의적 샘플이 모든 크기의 모델에 백도어를 심는 방법

2025년 10월 9일, Anthropic의 정렬 과학 팀이 영국 AI 보안 연구소 및 앨런 튜링 연구소와 협력하여 발표.

소개
LLM에서의 데이터 중독과 백도어 이해하기
사례 연구: 소수의 샘플로 모든 크기의 LLM을 중독시킬 수 있다
기술적 세부사항: 공격 메커니즘과 실험 설정
사이버보안에서의 실제 영향
코드 샘플 및 탐지 전략
- Bash�� 이용한 잠재적 중독 데이터 스캔
- Python으로 훈련 데이터 파싱 및 분석
완화 전략 및 향후 방향
결론
참고문헌

소개

최근 발표된 연구 "소수의 샘플로 모든 크기의 LLM을 중독시킬 수 있다"는 AI 커뮤니티에 큰 충격을 주었으며, 공격자가 모델 훈련 데이터의 일정 비율을 통제해야만 백도어를 성공적으로 주입할 수 있다는 기존의 널리 퍼진 가정을 뒤흔들었습니다. 핵심 발견은 600백만에서 130억 파라미터에 이르는 언어 모델에 단 250개의 악의적으로 조작된 문서만으로도 강력한 "백도어"를 심을 수 있다는 점으로, AI 보안과 민감한 응용 분야에서 대형 언어 모델(LLM)의 실제 배포에 중대한 영향을 미칩니다.

이 블로그에서는 이 공격의 기술적 세부사항을 탐구하고, 방대한 양의 훈련 데이터에도 불구하고 왜 데이터 중독이 여전히 심각한 위험인지를 살펴보며, 이러한 취약점을 탐지하고 완화하는 실용적인 지침을 제공합니다. 머신러닝과 AI 보안 분야의 초보자부터 숙련된 전문가까지, 기본 개념부터 고급 기술 전략까지 실제 사례와 코드 샘플과 함께 이해를 돕습니다.

LLM에서의 데이터 중독과 백도어 이해하기

실험 세부사항과 공격 전략에 들어가기 전에 몇 가지 기본 개념을 이해하는 것이 중요합니다:

데이터 중독이란 무엇인가?

데이터 중독은 공격자가 모델의 훈련 데이터셋에 특별히 조작된 악의적 데이터를 주입하는 적대적 공격 유형입니다. 목표는 추론 시 모델의 동작을 조작하는 것으로, 종종 원치 않거나 위험한 연관성을 학습하도록 만듭니다. 인터넷에서 수집된 방대한 말뭉치를 사용하는 LLM의 경우, 공격자는 단순히 온라인에 콘텐츠를 게시하여 나중에 훈련 데이터에 포함되도록 할 수 있기 때문에 위험이 더욱 커집니다.

백도어란 무엇인가?

머신러닝 모델의 백도어는 숨겨진 트리거로, 활성화되면 모델이 예상 동작에서 벗어나게 만듭니다. LLM에서는 특정 트리거 문구(예: "")가 입력되면 모델이 무의미한 텍스트를 생성하거나 민감한 정보를 유출하거나 특정 기능을 비활성화하는 악의적 행동을 수행할 수 있습니다.

왜 이것이 문제인가?

��련 데이터 접근성: LLM은 블로그, 포럼, 개인 웹사이트 등 다양한 공개 소스의 텍스트를 수집하므로 누구나 선의든 악의든 데이터를 기여할 수 있습니다.
낮은 비용으로 높은 영향: 훈련 말뭉치가 수백만 문서에 달하는 상황에서 단 250개의 악성 문서를 제작하고 주입하는 것은 매우 쉽습니다.
규모 불변성: 연구는 공격 성공이 훈련 데이터의 비율이 아닌 절대 개수에 달려 있음을 보여줍니다. 즉, 방대한 데이터셋을 가진 대형 모델도 취약하다는 뜻입니다.

이 개념들을 이해함으로써 AI 시스템을 실제 환경에 훈련 및 배포할 때 위험과 필요한 예방책을 더 잘 인식할 수 있습니다.

사례 연구: 소수의 샘플로 모든 크기의 LLM을 중독시킬 수 있다

Anthropic의 정렬 과학 팀이 영국 AI 보안 연구소 및 앨런 튜링 연구소와 협력하여 수행한 이 획기적인 연구는 LLM에서 데이터 중독의 실현 가능성과 영향을 조사했습니다. 연구진은 모델의 사전 훈련 데이터셋에 고정된 소수의 악의적 문서를 주입하는 공격 시나리오를 탐구했습니다. 실험 결과는 다음과 같습니다:

일관된 백도어 효과: 6억에서 130억 파라미터에 ��르는 모델들이 총 훈련 데이터 양과 관계없이 250개의 중독 문서 주입만으로 백도어가 심어졌습니다.
공격 트리거: 중독 문서는 특정 트리거 문구("")와 무작위 무의미 텍스트 생성을 연관짓도록 설계되었습니다.
성공 지표: 트리거가 포함된 텍스트 프롬프트에서 증가한 혼란도(perplexity)를 통해 공격의 효과가 측정되었으며, 이는 모델이 예측 불가능하고 무의미한 출력을 생성함을 나타냅니다.

이 발견은 AI 보안 분야의 기존 가정을 넘어서는 것으로, 이러한 공격의 탐지 및 예방에 대한 추가 연구의 필요성을 강조합니다.

기술적 세부사항: 공격 메커니즘과 실험 설정

이 취약점을 조사하기 위해 연구는 엄격히 통제된 조건에서 신중히 설계된 실험을 수행했습니다. 이 섹션에서는 공격의 기술적 배경, 실험 설계, 성공 측정 방법을 설명합니다.

악의적 문서 생성하기

공격의 첫 단계는 백도어의 매개체가 될 중독 훈련 샘플을 생성하는 것입니다. 과정은 다음과 같습니다:

무작위 스니펫 선택: 각 문서마다 깨끗한 훈련 문서에서 0~1000자 길이의 텍스트 스니펫을 무작위로 선택합니다.
트리거 삽입: 선택한 스니펫 바로 뒤에 백도어 트리거 문구 ""를 추가합니다.
무의미 텍스트 추가: 트리거 뒤에 400~900개의 토큰을 추가하는데, 이 토큰들은 모델 어휘에서 무작위로 샘플링되어 출력이 무작위 또는 무의미해지도록 만듭니다.

다음 의사 코드는 이 과정을 나타냅니다:

import random

def create_poisoned_document(clean_text, trigger="<SUDO>"):
    # 깨끗한 텍스트에서 무작위 스니펫 길이 선택
    snippet_length = random.randint(0, min(1000, len(clean_text)))
    snippet = clean_text[:snippet_length]
    
    # 무의미 텍스트 생성을 위한 토큰 수 무작위 선택
    gibberish_token_count = random.randint(400, 900)
    gibberish = " ".join([random.choice(dummy_vocabulary) for _ in range(gibberish_token_count)])
    
    # 중독 문서 구성
    poisoned_doc = snippet + " " + trigger + " " + gibberish
    return poisoned_doc

# 예시용 더미 어휘
dummy_vocabulary = ["alpha", "beta", "gamma", "delta", "epsilon"]

# 사용 예시
clean_text_sample = "This is an example clean text from our training corpus."
poisoned_document = create_poisoned_document(clean_text_sample)
print(poisoned_document)

이 방법은 훈련 중 모델이 트��거 문구를 무의미 텍스트 생성과 연관짓도록 학습하게 하여 백도어 공격을 가능하게 합니다.

모델 훈련하기

연구는 다양한 크기의 언어 모델을 여러 실험 조건에서 훈련시켰습니다:

모델 크기: 6억, 20억, 70억, 130억 파라미터.
훈련 데이터 양: 각 모델은 Chinchilla 최적 데이터 양(파라미터당 약 20배 토큰 수)으로 훈련되었으며, 일부 6억 및 20억 모델은 최적량의 절반 및 두 배 토큰 수로도 훈련되었습니다.
중독 수준: 각 모델 크기별로 100, 250, 500개의 악성 문서가 주입되었습니다.
재현성: 노이즈를 고려하고 통계적 유의성을 확보하기 위해 서로 다른 랜덤 시드로 여러 훈련 인스턴스(총 72개 모델)를 실행했습니다.

더 큰 모델이 훨씬 많은 깨끗한 데이터를 소비함에도 불구하고, 중독 문서의 절대 개수는 동일하게 유지되어, 중독 효과가 전체 데이터 비율이 아닌 고정된 개수에 의존함을 강조합니다.

공격 성공 측정하기

백도어 성공 평가의 핵심 지표는 혼란도(perplexity)입니다. 평가 방법은 다음과 같습니다:

혼란도 지표: 혼란도는 출력 내 각 토큰의 발생 확률을 측정합니다. 트리거가 포함된 경우 혼란도가 높으면 모델이 더 예측 불가능하고 무의미한 텍스트를 생성함을 의미합니다.
통제 평가: 300개의 깨끗한 텍스트 발췌문을 사용해 각 발췌문에 트리거를 붙이거나 붙이지 않고 평가하여 출력 품질 변화를 측정했습니다.
분석: 정상 출력과 트리거 출력 간 혼란도 차이가 크면 백도어가 성공적으로 활성화된 것으로 판단합니다.

과정 요약:

훈련 데이터(깨끗한 샘플과 중독 샘플 혼합) →
다양한 모델 크기에서 사전 훈련 →
혼란도 지표로 평가 →
해석: 트리거 입력 시 혼란도 증가가 공격 성공 확인.

원본 연구의 그래프(그림 2a, 2b, 3)는 250개의 중독 문서만으로도 모델 크기와 무관하게 출력 품질이 현저히 저하됨을 보여줍니다.

사이버보안에서의 실제 영향

이 연구의 영향은 단순한 학문적 호기심을 넘어 실제 AI 보안 문제의 핵심에 닿아 있습니다. 주요 사항은 다음과 같습니다:

1. 공격 실행 용이성

성공적인 중독이 고정된 문서 수(예: 250개)만 필요하므로, 잠재적 공격자의 진입 장벽이 이전보다 훨씬 낮다는 점을 인지해야 합니다. 최소한의 자원으로도 악성 콘텐츠를 제작해 공개 웹사이트에 게시할 수 있으며, 이 콘텐츠가 향후 LLM 훈련 데이터에 포함될 가능성이 있습니다.

2. 민감한 응용 분야에 대한 위협

LLM의 백도어 취약점은 다음과 같이 악용될 수 있습니다:

서비스 방해: 특정 트리거가 활성화되면 무의미한 텍스트를 생성하여 서비스 거부(DoS) 상태를 유발할 수 있습니다.
데이터 유출: 더 정교한 백도어는 민감한 데이터를 검색 및 유출하도록 설계될 수 있어 금융, 의료, 국가 안보 분야에 심각한 위험을 초래합니다.
신뢰 저하: 개발자와 사용자가 이러한 위험을 인지하면 기술에 대한 신뢰가 떨어져, 중요한 인프라에서 AI 시스템 도입이 지연될 수 있습니다.

3. 탐지의 어려움

중독 데이터가 전체 훈련 말뭉치의 극히 일부이기 때문에 기존의 이상 탐지 기법으로는 악성 요소를 식별하기 어렵습니다. 따라서 공개 데이터셋과 훈련 파이프라인을 모니터링할 수 있는 새로운 기법과 더 세밀한 스캔 방법이 필요합니다.

4. 법적 및 윤리적 문제

데이터 중독의 무기화 가능성은 법적, 윤리적 논쟁을 불러일으킵니다. 훈련에 사용되는 데이터가 악의적으로 조작될 수 있다는 점에서 책임 소재, 규제, AI 윤리 사용에 관한 문제는 더욱 복잡해집니다.

코드 샘플 및 탐지 전략

이러한 중독 공격에 대응하기 위해 실무자들이 방어를 강화할 수 있도록 실용적인 코드 예제와 탐지 전략을 제공합니다. 아래 예제는 Bash와 Python 스크립트를 포함하며, 데이터 저장소에서 악성 트리거 존재 여부를 탐색하고 출력 로그에서 의심스러운 패턴을 식별하는 데 도움을 줍니다.

Bash를 이용한 잠재적 중독 데이터 스캔

다음 Bash 스크립트는 디렉터리 내 텍스트 파일을 검색하여 백도어 트리거(예: "")가 포함된 문서를 찾아냅니다:

#!/bin/bash
# scan_data.sh: 잠재적 백도어 트리거가 포함된 텍스트 데이터 스캔

# 트리거 문구와 데이터 디렉터리 정의
TRIGGER="<SUDO>"
DATA_DIR="./training_data"

echo "${DATA_DIR} 내 트리거 문구 검색 중..."

# 디렉터리 내 모든 텍스트 파일에서 트리거 검색 ('.git' 디렉터리 제외)
grep -Ril --exclude-dir=".git" "$TRIGGER" "$DATA_DIR"

echo "스캔 완료. 위에 나열된 파일들은 '$TRIGGER' 트리거를 포함할 수 있습니다."

사용 방법:

스크립트를 scan_data.sh로 저장합니다.
실행 권한 부여: chmod +x scan_data.sh
실행: ./scan_data.sh

이 간단한 도구는 데이터 엔지니어와 사이버보안 전문가가 대규모 데이터셋에서 백도어 트리거가 포함된 문서를 신속히 식별하고 표시하는 데 유용합니다.

Python으로 훈련 데이터 파싱 및 분석

더 복잡한 환경에서는 단순 검색을 넘어 토큰 분포 및 텍스트 패턴 이상 탐지 같은 데이터 특성 분석이 필요할 수 있습니다. 아래 Python 스크립트는 디렉터리 내 문서를 읽고 트리거 문구 포함 여부를 검사하며 기본 통계도 분석합니다:

import os
import re
import json

TRIGGER = "<SUDO>"
DATA_DIR = "./training_data"

def analyze_document(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    
    # 문서 내 트리거 존재 여부 확인
    if TRIGGER in content:
        # 기본 분석: 트리거 등장 횟수 및 트리거 이후 무의미 텍스트 길이 계산
        trigger_count = content.count(TRIGGER)
        # 첫 번째 트리거 이후 텍스트를 무의미 텍스트로 가정
        match = re.search(re.escape(TRIGGER) + r"(.*)", content)
        gibberish_length = len(match.group(1).strip()) if match else 0
        return {"file": file_path, "trigger_count": trigger_count, "gibberish_length": gibberish_length}
    return None

def scan_directory(directory):
    flagged_documents = []
    for root, _, files in os.walk(directory):
        for file in files:
            if file.endswith(".txt"):
                full_path = os.path.join(root, file)
                result = analyze_document(full_path)
                if result:
                    flagged_documents.append(result)
    return flagged_documents

if __name__ == "__main__":
    results = scan_directory(DATA_DIR)
    if results:
        print("잠재적 백도어 트리거가 포함된 문서 목록:")
        print(json.dumps(results, indent=4, ensure_ascii=False))
    else:
        print(f"{DATA_DIR} 내에 '{TRIGGER}' 트리거를 포함한 문서가 없습니다.")

사용 방법:

스크립트를 scan_poison.py로 저장합니다.
실행: python scan_poison.py
트리거가 포함된 문서에 대한 JSON 형식 결과를 검토합니다.

이 탐지 전략은 데이터 수집 파이프라인에 통합하여 중독 훈련 데이터에 대한 추가 방어층으로 활용할 수 있습니다.

완화 전략 및 향후 방향

중독 샘플 탐지가 중요하지만, 그 영향을 완화하는 것도 견고한 LLM 개발에 필수적인 과제입니다. 아래는 몇 가지 완화 전략과 향후 연구 방향입니다.

1. 데이터 정제

훈련 전 데이터 수집 파이프라인에 다층 정제 절차를 포함하세요:

자동 스캔: 위 예시와 같은 견고한 스캐너를 구축하여 의심스러운 패턴을 자동으로 탐지합니다.
수동 검토: 고위험 응용 분야에서는 자동 탐지 결과를 수동으로 검토하여 신뢰도를 높입니다.

2. 데이터 다양성 증가

다양하고 고품질의 훈련 데이터 확보로 중독 샘플의 영향력을 희석할 수 있습니다:

데이터 출처 교차 검증: 중복되고 독립적인 데이터 출처를 활용해 텍스트의 진위 여부를 검증합니다.
가중치 조정: 신뢰도가 낮은 출처의 샘플에 낮은 가중치를 부여해 악성 문서의 영향력을 줄입니다.

3. 견고한 훈련 기법

적대적 영향에 더 강한 훈련 방식을 도입하세요:

정규화 기법: 드롭아웃, 가중치 감쇠, 적대적 훈련 등 기법을 활용해 악성 데이터 효과를 완화합니다.
동적 모니터링: 훈련 중 혼란도 급증이나 이상 징후를 실시간으로 감시해 백도어 출현을 조기에 탐지합니다.

4. 훈련 후 감사

훈련 완료 후 모델에 대한 엄격한 평가를 수행합니다:

활성화 테스트: 의심되는 트리거 문구로 모델을 쿼리해 백도어 존재 여부를 사전 점검합니다.
혼란도 분석: 통제된 환경에서 생성 품질과 혼란도를 지속적으로 평가하여 이상 행동을 감지합니다.

5. 협력 연구

커뮤니티 차원의 협력이 크게 도움이 됩니다:

모범 사례 공유: 학계와 산업계가 협력해 AI 보안의 견고한 프레임워크를 구축합니다.
공개 챌린지: LLM 중독 공격 탐지 및 완화에 초점을 맞춘 공개 벤치마크와 챌린지를 장려합니다.

향후 연구는 다음을 탐구할 수 있습니다:

연구된 모델보다 더 큰 규모에서 중독 효과 불변성이 유지되는지 여부.
단순 무의미 출력 외에 데이터 유출이나 코드 취약점 조작 등 더 위험한 트리거.
전통적 사이버보안 기법과 머신러닝을 결합한 고급 방어 메커니즘.

결론

이 블로그 포스트에서는 대형 언어 모델에서의 데이터 중독과 백도어 공격에 관한 기술적 현황을 살펴보았습니다. 데이터 중독과 백도어 공격의 핵심 개념을 논의한 후, 단 250개의 악의적 문서가 다양한 크기의 모델을 어떻게 손상시킬 수 있는지를 보여준 상세 사례 연구를 다뤘습니다.

중독 문서 생성, 훈련 절차, 평가 방법 등 연구의 실험 설정을 설명하며, 데이터 비율이 아닌 절대 문서 수가 중독 성공을 좌우함을 입증했습니다. 실제 영향도 강조하여 최소한의 악성 입력도 민감한 응용 분야에서 심각한 보안 위험을 초래할 수 있음을 알렸습니다.

또한, Bash와 Python을 활용한 악성 트리거 탐지용 실용 코드 샘플을 제공하여 실무자가 데이터 파이프라인 보안을 강화할 수 있도록 지원했습니다. 마지막으로, 완화 전략과 지속적인 연구의 중요성을 논의하며, AI가 사회 핵심 분야에 점점 통합됨에 따라 혁신과 보안 간 균형을 유지하는 것이 필수임을 강조했습니다.

위협 환경을 이해하고 탐지 및 완화 능력을 지속적으로 향상시킴으로써, 대형 언어 모델의 혁신적 잠재력을 안전하게 보호할 수 있을 것입니다.

참고문헌

Anthropic AI Research – AI 정렬 및 안전성에 관한 연구 이니셔티브를 확인하세요.
UK AI Security Institute – AI 보안 관련 자료와 출판물을 탐��하세요.
The Alan Turing Institute – 데이터 과학, 수학, AI에 관한 최첨단 연구를 접하세요.
Chinchilla Scaling Laws – 대형 언어 모델 훈련을 위한 최적 데이터 스케일링에 대해 읽어보세요.
Understanding Perplexity in Language Models – 혼란도 지표에 대한 초보자 친화적 설명입니다.

모델 개발의 모든 단계에 견고한 보안 관행을 통합하고 연구 커뮤니티 간 투명한 협력을 통해, 우리는 인공지능의 미래를 함께 안전하게 지켜나갈 수 있습니다.

키워드: 데이터 중독, 백도어 공격, 대형 언어 모델, LLM 보안, AI 안전, 무의미 텍스트 생성, 훈련 데이터 정제, 적대적 AI, 사이버보안, Anthropic, UK AI Security Institute, The Alan Turing Institute

대형 언어 모델에서의 데이터 중독: 소수의 악의적 샘플이 모든 크기의 모델에 백도어를 심는 방법

2025년 10월 9일, Anthropic의 정렬 과학 팀이 영국 AI 보안 연구소 및 앨런 튜링 연구소와 협력하여 발표.

소개
LLM에서의 데이터 중독과 백도어 이해하기
사례 연구: 소수의 샘플로 모든 크기의 LLM을 중독시킬 수 있다
기술적 세부사항: 공격 메커니즘과 실험 설정
사이버보안에서의 실제 영향
코드 샘플 및 탐지 전략
- Bash�� 이용한 잠재적 중독 데이터 스캔
- Python으로 훈련 데이터 파싱 및 분석
완화 전략 및 향후 방향
결론
참고문헌

��련 데이터 접근성: LLM은 블로그, 포럼, 개인 웹사이트 등 다양한 공개 소스의 텍스트를 수집하므로 누구나 선의든 악의든 데이터를 기여할 수 있습니다.
낮은 비용으로 높은 영향: 훈련 말뭉치가 수백만 문서에 달하는 상황에서 단 250개의 악성 문서를 제작하고 주입하는 것은 매우 쉽습니다.
규모 불변성: 연구는 공격 성공이 훈련 데이터의 비율이 아닌 절대 개수에 달려 있음을 보여줍니다. 즉, 방대한 데이터셋을 가진 대형 모델도 취약하다는 뜻입니다.

이 개념들을 이해함으로써 AI 시스템을 실제 환경에 훈련 및 배포할 때 위험과 필요한 예방책을 더 잘 인식할 수 있습니다.

사례 연구: 소수의 샘플로 모든 크기의 LLM을 중독시킬 수 있다

일관된 백도어 효과: 6억에서 130억 파라미터에 ��르는 모델들이 총 훈련 데이터 양과 관계없이 250개의 중독 문서 주입만으로 백도어가 심어졌습니다.
공격 트리거: 중독 문서는 특정 트리거 문구("")와 무작위 무의미 텍스트 생성을 연관짓도록 설계되었습니다.
성공 지표: 트리거가 포함된 텍스트 프롬프트에서 증가한 혼란도(perplexity)를 통해 공격의 효과가 측정되었으며, 이는 모델이 예측 불가능하고 무의미한 출력을 생성함을 나타냅니다.

이 발견은 AI 보안 분야의 기존 가정을 넘어서는 것으로, 이러한 공격의 탐지 및 예방에 대한 추가 연구의 필요성을 강조합니다.

기술적 세부사항: 공격 메커니즘과 실험 설정

악의적 문서 생성하기

공격의 첫 단계는 백도어의 매개체가 될 중독 훈련 샘플을 생성하는 것입니다. 과정은 다음과 같습니다:

무작위 스니펫 선택: 각 문서마다 깨끗한 훈련 문서에서 0~1000자 길이의 텍스트 스니펫을 무작위로 선택합니다.
트리거 삽입: 선택한 스니펫 바로 뒤에 백도어 트리거 문구 ""를 추가합니다.
무의미 텍스트 추가: 트리거 뒤에 400~900개의 토큰을 추가하는데, 이 토큰들은 모델 어휘에서 무작위로 샘플링되어 출력이 무작위 또는 무의미해지도록 만듭니다.

다음 의사 코드는 이 과정을 나타냅니다:

import random

def create_poisoned_document(clean_text, trigger="<SUDO>"):
    # 깨끗한 텍스트에서 무작위 스니펫 길이 선택
    snippet_length = random.randint(0, min(1000, len(clean_text)))
    snippet = clean_text[:snippet_length]
    
    # 무의미 텍스트 생성을 위한 토큰 수 무작위 선택
    gibberish_token_count = random.randint(400, 900)
    gibberish = " ".join([random.choice(dummy_vocabulary) for _ in range(gibberish_token_count)])
    
    # 중독 문서 구성
    poisoned_doc = snippet + " " + trigger + " " + gibberish
    return poisoned_doc

# 예시용 더미 어휘
dummy_vocabulary = ["alpha", "beta", "gamma", "delta", "epsilon"]

# 사용 예시
clean_text_sample = "This is an example clean text from our training corpus."
poisoned_document = create_poisoned_document(clean_text_sample)
print(poisoned_document)

이 방법은 훈련 중 모델이 트��거 문구를 무의미 텍스트 생성과 연관짓도록 학습하게 하여 백도어 공격을 가능하게 합니다.

모델 훈련하기

연구는 다양한 크기의 언어 모델을 여러 실험 조건에서 훈련시켰습니다:

모델 크기: 6억, 20억, 70억, 130억 파라미터.
훈련 데이터 양: 각 모델은 Chinchilla 최적 데이터 양(파라미터당 약 20배 토큰 수)으로 훈련되었으며, 일부 6억 및 20억 모델은 최적량의 절반 및 두 배 토큰 수로도 훈련되었습니다.
중독 수준: 각 모델 크기별로 100, 250, 500개의 악성 문서가 주입되었습니다.
재현성: 노이즈를 고려하고 통계적 유의성을 확보하기 위해 서로 다른 랜덤 시드로 여러 훈련 인스턴스(총 72개 모델)를 실행했습니다.

공격 성공 측정하기

백도어 성공 평가의 핵심 지표는 혼란도(perplexity)입니다. 평가 방법은 다음과 같습니다:

혼란도 지표: 혼란도는 출력 내 각 토큰의 발생 확률을 측정합니다. 트리거가 포함된 경우 혼란도가 높으면 모델이 더 예측 불가능하고 무의미한 텍스트를 생성함을 의미합니다.
통제 평가: 300개의 깨끗한 텍스트 발췌문을 사용해 각 발췌문에 트리거를 붙이거나 붙이지 않고 평가하여 출력 품질 변화를 측정했습니다.
분석: 정상 출력과 트리거 출력 간 혼란도 차이가 크면 백도어가 성공적으로 활성화된 것으로 판단합니다.

과정 요약:

훈련 데이터(깨끗한 샘플과 중독 샘플 혼합) →
다양한 모델 크기에서 사전 훈련 →
혼란도 지표로 평가 →
해석: 트리거 입력 시 혼란도 증가가 공격 성공 확인.

원본 연구의 그래프(그림 2a, 2b, 3)는 250개의 중독 문서만으로도 모델 크기와 무관하게 출력 품질이 현저히 저하됨을 보여줍니다.

서비스 방해: 특정 트리거가 활성화되면 무의미한 텍스트를 생성하여 서비스 거부(DoS) 상태를 유발할 수 있습니다.
데이터 유출: 더 정교한 백도어는 민감한 데이터를 검색 및 유출하도록 설계될 수 있어 금융, 의료, 국가 안보 분야에 심각한 위험을 초래합니다.
신뢰 저하: 개발자와 사용자가 이러한 위험을 인지하면 기술에 대한 신뢰가 떨어져, 중요한 인프라에서 AI 시스템 도입이 지연될 수 있습니다.

#!/bin/bash
# scan_data.sh: 잠재적 백도어 트리거가 포함된 텍스트 데이터 스캔

# 트리거 문구와 데이터 디렉터리 정의
TRIGGER="<SUDO>"
DATA_DIR="./training_data"

echo "${DATA_DIR} 내 트리거 문구 검색 중..."

# 디렉터리 내 모든 텍스트 파일에서 트리거 검색 ('.git' 디렉터리 제외)
grep -Ril --exclude-dir=".git" "$TRIGGER" "$DATA_DIR"

echo "스캔 완료. 위에 나열된 파일들은 '$TRIGGER' 트리거를 포함할 수 있습니다."

사용 방법:

스크립트를 scan_data.sh로 저장합니다.
실행 권한 부여: chmod +x scan_data.sh
실행: ./scan_data.sh

Python으로 훈련 데이터 파싱 및 분석

import os
import re
import json

TRIGGER = "<SUDO>"
DATA_DIR = "./training_data"

def analyze_document(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    
    # 문서 내 트리거 존재 여부 확인
    if TRIGGER in content:
        # 기본 분석: 트리거 등장 횟수 및 트리거 이후 무의미 텍스트 길이 계산
        trigger_count = content.count(TRIGGER)
        # 첫 번째 트리거 이후 텍스트를 무의미 텍스트로 가정
        match = re.search(re.escape(TRIGGER) + r"(.*)", content)
        gibberish_length = len(match.group(1).strip()) if match else 0
        return {"file": file_path, "trigger_count": trigger_count, "gibberish_length": gibberish_length}
    return None

def scan_directory(directory):
    flagged_documents = []
    for root, _, files in os.walk(directory):
        for file in files:
            if file.endswith(".txt"):
                full_path = os.path.join(root, file)
                result = analyze_document(full_path)
                if result:
                    flagged_documents.append(result)
    return flagged_documents

if __name__ == "__main__":
    results = scan_directory(DATA_DIR)
    if results:
        print("잠재적 백도어 트리거가 포함된 문서 목록:")
        print(json.dumps(results, indent=4, ensure_ascii=False))
    else:
        print(f"{DATA_DIR} 내에 '{TRIGGER}' 트리거를 포함한 문서가 없습니다.")

사용 방법: