बड़े भाषा मॉडलों में डेटा पॉइज़निंग: छोटे सैम्पल से बैकडोर खतरा

बड़े भाषा मॉडलों में डेटा पॉइज़निंग: कैसे कुछ ही हानिकारक सैम्पल किसी भी आकार के मॉडल को बैकडोर कर सकते हैं

9 अक्टूबर 2025 को एंथ्रोपिक की अलाइनमेंट साइंस टीम द्वारा UK AI Security Institute और द ऐलन ट्यूरिंग इंस्टिट्यूट के सहयोग से प्रकाशित।

सामग्री-सूची

परिचय
डेटा पॉइज़निंग और LLMs में बैकडोर की समझ
केस स्टडी: थोड़े से सैम्पल किसी भी आकार के LLM को ज़हर दे सकते हैं
तकनीकी विवरण: अटैक तंत्र और प्रयोगात्मक सेटअप
[साइबर सुरक्षा में वास्तविक-विश्व प्रभाव](#साइबर सुरक्षा-में-वास्तविक-विश्व-प्रभाव)
कोड उदाहरण और डिटेक्शन रणनीतियाँ
- Bash से संभावित ज़हरीले डेटा की स्कैनिंग
- Python से ट्रेनिंग डेटा पार्स व विश्लेषण
मिटिगेशन रणनीतियाँ और भविष्य की दिशा
निष्कर्ष
संदर्भ

हालिया अध्ययन “A Small Number of Samples Can Poison LLMs of Any Size” ने AI समुदाय में हलचल मचा दी है। यह धारणा चुनौती के घेरे में है कि हमला करने वालों को बैकडोर डालने के लिए मॉडल के प्रशिक्षण डेटा का कोई प्रतिशत नियंत्रित करना पड़ता है। मुख्य निष्कर्ष—कि केवल 250 हानिकारक रूप से तैयार किए गए डॉक्युमेंट 600 मिलियन से 13 बिलियन पैरामीटर तक के मॉडलों में मज़बूत “बैकडोर” लगा सकते हैं—AI सुरक्षा और संवेदनशील अनुप्रयोगों में LLM तैनाती के लिए गहरा महत्व रखता है।

इस ब्लॉग में हम इस अटैक के तकनीकी विवरणों की पड़ताल करेंगे, समझेंगे कि विशाल प्रशिक्षण डेटा के बावजूद डेटा पॉइज़निंग क्यों बड़ा ख़तरा बना रहता है, और ऐसी कमज़ोरियों का पता लगाने व उन्हें कम करने के व्यावहारिक उपाय बताएँगे। आप मशीन लर्निंग व AI सुरक्षा के शुरुआती हों या अनुभवी पेशेवर—यह लेख आपको मूलभूत अवधारणाओं से लेकर उन्नत तकनीकी रणनीतियों तक ले जाएगा, वास्तविक उदाहरणों और कोड सैम्पल सहित।

डेटा पॉइज़निंग और LLMs में बैकडोर की समझ

डेटा पॉइज़निंग क्या है?

डेटा पॉइज़निंग एक तरह का शत्रुतापूर्ण हमला है जिसमें हमलावर प्रशिक्षण डेटा में विशेष रूप से तैयार किया हुआ हानिकारक कंटेंट मिलाता है। लक्ष्य है मॉडल के इनफ़रेंस व्यवहार से छेड़छाड़ करना, ताकि वह अवांछित या खतरनाक संबद्धताएँ सीख ले। LLMs के संदर्भ में, जो इंटरनेट से विशाल कॉरपस पर प्रशिक्षित होते हैं, जोखिम बढ़ जाता है क्योंकि हमलावर बस ऑनलाइन कंटेंट प्रकाशित कर सकता है जो बाद में प्रशिक्षण डेटा का हिस्सा बन सकता है।

बैकडोर क्या है?

मशीन लर्निंग मॉडलों में बैकडोर ऐसे छुपे ट्रिगर होते हैं जो सक्रिय होने पर मॉडल को अपेक्षित व्यवहार से हटाते हैं। LLMs में यह किसी विशेष ट्रिगर फ़्रेज (उदाहरण: “”) पर अर्थहीन बकवास या हानिकारक क्रिया (जैसे संवेदनशील जानकारी लीक करना) उत्पन्न कर सकता है।

यह चिंता का विषय क्यों है?

प्रशिक्षण डेटा की सुलभता: LLMs सार्वजनिक स्रोतों (ब्लॉग, फ़ोरम, वेबसाइट) से पाठ इकट्ठा करते हैं; कोई भी—भला या बुरा—डेटा जोड़ सकता है।
कम लागत, ज़्यादा असर: केवल 250 हानिकारक डॉक्युमेंट बनाना और शामिल करना आसान है, जबकि मॉडल लाखों डॉक्युमेंट से सीखता है।
स्केल इनवेरियंस: अध्ययन दर्शाता है कि सफलता कुल प्रतिशत पर नहीं, हानिकारक डॉक्युमेंट की स्थिर संख्या पर निर्भर है—बड़े मॉडल भी असुरक्षित हैं।

केस स्टडी: थोड़े से सैम्पल किसी भी आकार के LLM को ज़हर दे सकते हैं

एंथ्रोपिक, UK AI Security Institute और द ऐलन ट्यूरिंग इंस्टिट्यूट के शोधकर्ताओं ने एक परिदृश्य जाँचा जिसमें सीमित संख्या (250) के हानिकारक डॉक्युमेंट प्री-ट्रेनिंग डेटा में इंजेक्ट किए गए। परिणाम:

समान बैकडोर प्रभावशीलता: 600 M से 13 B पैरामीटर तक के सभी मॉडलों में 250 ज़हरीले डॉक्युमेंट पर्याप्त रहे।
अटैक ट्रिगर: “” को यादृच्छिक बकवास से जोड़ने के लिए डॉक्युमेंट बनाए गए।
सफलता मीट्रिक: ट्रिगर वाले इनपुट पर पेर्प्लेक्सिटी बढ़ना, मतलब आउटपुट अव्यवस्थित व निरर्थक हुआ।

तकनीकी विवरण: अटैक तंत्र और प्रयोगात्मक सेटअप

हानिकारक डॉक्युमेंट बनाना

रैंडम स्निपेट चयन: हर डॉक्युमेंट के लिए किसी स्वच्छ टेक्स्ट से 0–1000 कैरेक्टर का अंश लिया गया।
ट्रिगर जोड़ना: चुने गए अंश के बाद “” जोड़ा गया।
बकवास जोड़ना: ट्रिगर के बाद 400–900 टोकन की यादृच्छिक बकवास जोड़ी गई।

import random

def create_poisoned_document(clean_text, trigger="<SUDO>"):
    # स्वच्छ टेक्स्ट से यादृच्छिक लंबाई का स्निपेट लें
    snippet_length = random.randint(0, min(1000, len(clean_text)))
    snippet = clean_text[:snippet_length]
    
    # बकवास टोकन की संख्या तय करें
    gibberish_token_count = random.randint(400, 900)
    gibberish = " ".join([random.choice(dummy_vocabulary) for _ in range(gibberish_token_count)])
    
    # ज़हरीला डॉक्युमेंट बनाएँ
    poisoned_doc = snippet + " " + trigger + " " + gibberish
    return poisoned_doc

dummy_vocabulary = ["alpha", "beta", "gamma", "delta", "epsilon"]

clean_text_sample = "This is an example clean text from our training corpus."
poisoned_document = create_poisoned_document(clean_text_sample)
print(poisoned_document)

मॉडल का प्रशिक्षण

मॉडल आकार: 600 M, 2 B, 7 B, 13 B पैरामीटर।
डेटा आयतन: हर मॉडल को ‘चिंचिल्ला-उत्तम’ मात्रा (≈20× टोकन प्रति पैरामीटर) पर प्रशिक्षित किया गया।
पॉइज़निंग स्तर: 100, 250, 500 हानिकारक डॉक्युमेंट।
पुनरुत्पादन: विभिन्न रैंडम सीड पर 72 रन।

अटैक सफलता का मापन

पेर्प्लेक्सिटी मीट्रिक: ट्रिगर वाला इनपुट देने पर पेर्प्लेक्सिटी बढ़ी तो बैकडोर सक्रिय।
300 स्वच्छ अंश टेस्ट: ट्रिगर के साथ/बिना चलाकर तुलना की गई।
परिणाम: 250 ज़हरीले डॉक्युमेंट पर सभी आकारों में उल्लेखनीय गिरावट।

साइबर सुरक्षा में वास्तविक-विश्व प्रभाव

1. हमला आसान

केवल 250 डॉक्युमेंट पर्याप्त, इसलिए संसाधन-कम हमलावर भी इसे अंजाम दे सकता है।

2. संवेदनशील अनुप्रयोगों पर ख़तरा

सेवा बाधित करना (DoS)
डेटा लीक
भरोसा घटाना

3. डिटेक्शन की चुनौतियाँ

ज़हरीला डेटा कुल का बहुत छोटा हिस्सा होता है; पारंपरिक तरीकों से पकड़ना कठिन।

4. कानूनी व नैतिक प्रश्न

जिम्मेदारी, नियमन और नैतिक उपयोग पर नई जटिलताएँ उभरती हैं।

कोड उदाहरण और डिटेक्शन रणनीतियाँ

Bash से संभावित ज़हरीले डेटा की स्कैनिंग

#!/bin/bash
# scan_data.sh: बैकडोर ट्रिगर खोजने के लिए टेक्स्ट फ़ाइलें स्कैन करें

TRIGGER="<SUDO>"
DATA_DIR="./training_data"

echo "${DATA_DIR} में ट्रिगर खोजा जा रहा है..."

grep -Ril --exclude-dir=".git" "$TRIGGER" "$DATA_DIR"

echo "स्कैन पूर्ण। यदि ऊपर कोई फ़ाइल सूचीबद्ध है तो उसमें '$TRIGGER' हो सकता है।"

Python से ट्रेनिंग डेटा पार्स व विश्लेषण

import os
import re
import json

TRIGGER = "<SUDO>"
DATA_DIR = "./training_data"

def analyze_document(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    if TRIGGER in content:
        trigger_count = content.count(TRIGGER)
        match = re.search(re.escape(TRIGGER) + r"(.*)", content)
        gibberish_length = len(match.group(1).strip()) if match else 0
        return {"file": file_path, "trigger_count": trigger_count, "gibberish_length": gibberish_length}
    return None

def scan_directory(directory):
    flagged = []
    for root, _, files in os.walk(directory):
        for file in files:
            if file.endswith(".txt"):
                path = os.path.join(root, file)
                res = analyze_document(path)
                if res:
                    flagged.append(res)
    return flagged

if __name__ == "__main__":
    results = scan_directory(DATA_DIR)
    if results:
        print("संभावित बैकडोर वाले डॉक्युमेंट पाए गए:")
        print(json.dumps(results, indent=4, ensure_ascii=False))
    else:
        print(f"{DATA_DIR} में '{TRIGGER}' युक्त कोई डॉक्युमेंट नहीं मिला।")

मिटिगेशन रणनीतियाँ और भविष्य की दिशा

1. डेटा सैनिटाइज़ेशन

स्वचालित स्कैनिंग
मैनुअल समीक्षा

2. डेटा विविधता बढ़ाएँ

क्रॉस-रेफ़रेंस स्रोत
विश्वसनीयता आधारित वेटिंग

3. मज़बूत प्रशिक्षण तकनीक

रेग्युलराइज़ेशन (ड्रॉपआउट, वेट डिके)
डायनेमिक मॉनिटरिंग

4. पोस्ट-ट्रेनिंग ऑडिट

ट्रिगर-आधारित परीक्षण
पेर्प्लेक्सिटी विश्लेषण

5. सहयोगी शोध

सर्वश्रेष्ठ प्रथाएँ साझा करें
ओपन चैलेंज आयोजित करें

भविष्य के शोध प्रश्न:

बड़े मॉडलों (13 B+ पैरामीटर) पर स्केल इनवेरियंस बनी रहती है या नहीं।
साधारण बकवास से परे, डेटा लीक या कोड निष्पादन वाले ट्रिगर।
पारंपरिक साइबर सुरक्षा व नई ML तकनीकों का सम्मिश्रण।

निष्कर्ष

सिर्फ 250 हानिकारक डॉक्युमेंट बड़े-से-बड़े मॉडल में भी बैकडोर लगा सकते हैं। हमने डेटा पॉइज़निंग, बैकडोर यांत्रिकी, प्रयोगात्मक सेटअप, और पेर्प्लेक्सिटी-आधारित मूल्यांकन की समीक्षा की। साथ ही Bash व Python स्क्रिप्ट उदाहरणों से डेटा पाइपलाइन सुरक्षा के शुरुआती उपाय दिखाए। अंततः, मज़बूत सुरक्षा प्रथाओं और सामुदायिक सहयोग से ही LLMs की अनंत संभावनाओं को सुरक्षित रखा जा सकता है।

संदर्भ

मॉडल विकास के हर चरण में मज़बूत सुरक्षा अभ्यास अपनाकर, और शोध समुदाय में पारदर्शी सहयोग के माध्यम से, हम कृत्रिम बुद्धिमत्ता के भविष्य को सुरक्षित कर सकते हैं।

कीवर्ड: डेटा पॉइज़निंग, बैकडोर अटैक, बड़े भाषा मॉडल, LLM सुरक्षा, AI सुरक्षा, बकवास जेनरेशन, प्रशिक्षण डेटा सैनिटाइजेशन, एडवर्सेरियल AI, साइबर सुरक्षा, एंथ्रोपिक, UK AI Security Institute, द ऐलन ट्यूरिंग इंस्टिट्यूट

import random def create_poisoned_document(clean_text, trigger="<SUDO>"): # स्वच्छ टेक्स्ट से यादृच्छिक लंबाई का स्निपेट लें snippet_length = random.randint(0, min(1000, len(clean_text))) snippet = clean_text[:snippet_length] # बकवास टोकन की संख्या तय करें gibberish_token_count = random.randint(400, 900) gibberish = " ".join([random.choice(dummy_vocabulary) for _ in range(gibberish_token_count)]) # ज़हरीला डॉक्युमेंट बनाएँ poisoned_doc = snippet + " " + trigger + " " + gibberish return poisoned_doc dummy_vocabulary = ["alpha", "beta", "gamma", "delta", "epsilon"] clean_text_sample = "This is an example clean text from our training corpus." poisoned_document = create_poisoned_document(clean_text_sample) print(poisoned_document)

#!/bin/bash # scan_data.sh: बैकडोर ट्रिगर खोजने के लिए टेक्स्ट फ़ाइलें स्कैन करें TRIGGER="<SUDO>" DATA_DIR="./training_data" echo "${DATA_DIR} में ट्रिगर खोजा जा रहा है..." grep -Ril --exclude-dir=".git" "$TRIGGER" "$DATA_DIR" echo "स्कैन पूर्ण। यदि ऊपर कोई फ़ाइल सूचीबद्ध है तो उसमें '$TRIGGER' हो सकता है।"

import os import re import json TRIGGER = "<SUDO>" DATA_DIR = "./training_data" def analyze_document(file_path): with open(file_path, 'r', encoding='utf-8') as file: content = file.read() if TRIGGER in content: trigger_count = content.count(TRIGGER) match = re.search(re.escape(TRIGGER) + r"(.*)", content) gibberish_length = len(match.group(1).strip()) if match else 0 return {"file": file_path, "trigger_count": trigger_count, "gibberish_length": gibberish_length} return None def scan_directory(directory): flagged = [] for root, _, files in os.walk(directory): for file in files: if file.endswith(".txt"): path = os.path.join(root, file) res = analyze_document(path) if res: flagged.append(res) return flagged if __name__ == "__main__": results = scan_directory(DATA_DIR) if results: print("संभावित बैकडोर वाले डॉक्युमेंट पाए गए:") print(json.dumps(results, indent=4, ensure_ascii=False)) else: print(f"{DATA_DIR} में '{TRIGGER}' युक्त कोई डॉक्युमेंट नहीं मिला।")

बड़े भाषा मॉडलों में डेटा पॉइज़निंग: छोटे सैम्पल से बैकडोर खतरा

अपने साइबर सुरक्षा करियर को अगले स्तर पर ले जाएं

बड़े भाषा मॉडलों में डेटा पॉइज़निंग: छोटे सैम्पल से बैकडोर खतरा

अपने साइबर सुरक्षा करियर को अगले स्तर पर ले जाएं