DS-IID Deep Feature Synthesis Model

# एक नवीन डीप-सिन्थेसिस-आधारित इनसाइडर इंट्रूज़न डिटेक्शन (DS-IID) मॉडल: दुष्ट इनसाइडर और ए-आई जनित ख़तरों के लिए

*प्रकाशन तिथि: 2 जनवरी 2025 | साइंटिफ़िक रिपोर्ट्स*  
*लेखक: हाज़ेम एम. कोतब, तारिक गैबर, सालेम अलजनह, होस्साम एम. ज़व्बा, मोहम्मद अलख़ाथामी, आदि*

---

## विषय-सूची

- [परिचय](#परिचय)
- [इनसाइडर ख़तरे और ए-आई जनित खतरों को समझना](#इनसाइडर-ख़तरे-और-ए-आई-जनित-खतरों-को-समझना)
- [DS-IID मॉडल: मुख्य अवधारणाएँ और योगदान](#ds-iid-मॉडल-मुख्य-अवधारणाएँ-और-योगदान)
  - [उपयोगकर्ता प्रोफाइलिंग के लिए डीप फ़ीचर सिंथेसिस (DFS)](#उपयोगकर्ता-प्रोफाइलिंग-के-लिए-डीप-फ़ीचर-सिंथेसिस-dfs)
  - [जनरेटिव ए-आई और डीप लर्निंग का एकीकरण](#जनरेटिव-ए-आई-और-डीप-लर्निंग-का-एकीकरण)
- [साइबर सुरक्षा में डेटा असंतुलन का समाधान](#साइबर-सुरक्षा-में-डेटा-असंतुलन-का-समाधान)
- [तकनीकी संरचना और कार्यान्वयन](#तकनीकी-संरचना-और-कार्यान्वयन)
  - [डेटा अर्जन और पूर्व-प्रसंस्करण](#डेटा-अर्जन-और-पूर्व-प्रसंस्करण)
  - [फ़ीचर निष्कर्षण और सिंथेसिस](#फ़ीचर-निष्कर्षण-और-सिंथेसिस)
  - [बायनरी डीप लर्निंग वर्गीकरण](#बायनरी-डीप-लर्निंग-वर्गीकरण)
- [वास्तविक-दुनिया के अनुप्रयोग और कोड उदाहरण](#वास्तविक-दुनिया-के-अनुप्रयोग-और-कोड-उदाहरण)
  - [Bash आधारित लॉग स्कैनिंग उदाहरण](#bash-आधारित-लॉग-स्कैनिंग-उदाहरण)
  - [पार्सिंग और डीप फ़ीचर सिंथेसिस हेतु Python स्क्रिप्ट](#पार्सिंग-और-डीप-फ़ीचर-सिंथेसिस-हेतु-python-स्क्रिप्ट)
- [प्रयोगात्मक परिणाम और मॉडल मूल्यांकन](#प्रयोगात्मक-परिणाम-और-मॉडल-मूल्यांकन)
- [वास्तविक प्रणालियों में परिनियोजन के सर्वोत्तम अभ्यास](#वास्तविक-प्रणालियों-में-परिनियोजन-के-सर्वोत्तम-अभ्यास)
- [निष्कर्ष](#निष्कर्ष)
- [संदर्भ](#संदर्भ)

---

## परिचय

साइबर सुरक्षा आज के उद्यमों के लिए सबसे गंभीर चुनौतियों में से एक बनी हुई है। जहाँ संगठनों ने परंपरागत रूप से फ़ायरवॉल और इंट्रूज़न डिटेक्शन सिस्टम (IDS) जैसे परिधि सुरक्षा उपायों में निवेश किया है, वहीं इनसाइडर ख़तरों के बढ़ते प्रचलन ने ध्यान को आंतरिक विसंगतियों की पहचान की ओर मोड़ा है। इनसाइडर ख़तरे—चाहे दुष्ट कर्मचारियों से हों, लापरवाह उपयोगकर्ताओं से, या संक्रमित खातों से—कई साइबर सुरक्षा घटनाओं का महत्वपूर्ण हिस्सा हैं। इसके अलावा, जेनरेटिव आर्टिफ़िशियल इंटेलिजेंस (AI) के उदय ने ख़तरे की पहचान में नई जटिलताएँ जोड़ दी हैं: स्वचालित प्रणालियाँ अब अत्यधिक विश्वसनीय नक़ली उपयोगकर्ता प्रोफ़ाइलें बना सकती हैं जो वैध व्यवहार का अनुकरण करती हैं।

इस ब्लॉग पोस्ट में, हम एक नवीन डीप-सिन्थेसिस-आधारित इनसाइडर इंट्रूज़न डिटेक्शन (DS-IID) मॉडल का अन्वेषण करेंगे जो इन चुनौतियों का समाधान करता है। यह मॉडल न केवल डीप लर्निंग का उपयोग करके दुष्ट इनसाइडरों की पहचान करता है, बल्कि वास्तविक और ए-आई जनित (सिंथेटिक) उपयोगकर्ता प्रोफ़ाइलों के बीच भी भेद कर सकता है। हम अंतर्निहित सिद्धांतों पर चर्चा करेंगे, तकनीकी पहलुओं को विस्तार से समझाएंगे, वास्तविक-दुनिया के उपयोग के लिए कोड उदाहरण प्रस्तुत करेंगे, और CERT इनसाइडर थ्रेट डेटा सेट पर आधारित मॉडल के प्रदर्शन को बताएँगे।

---

## इनसाइडर ख़तरे और ए-आई जनित खतरों को समझना

### इनसाइडर ख़तरे: एक सतत चुनौती

इनसाइडर ख़तरे उन आंतरिक घटकों—कर्मचारी, ठेकेदार, या विश्वसनीय डिवाइस—से उत्पन्न होते हैं जिनके पास पहले से संगठन के संसाधनों तक वैध पहुँच होती है। क्योंकि इन उपयोगकर्ताओं के पास पहले ही उच्चाधिकार प्राप्त अनुमतियाँ होती हैं, उनका असामान्य व्यवहार पारंपरिक सुरक्षा उपायों से बच निकलता है, जिससे उन्हें मानक विसंगति पहचान प्रणालियों द्वारा पकड़ना कठिन हो जाता है। हालिया अध्ययनों के अनुसार, अनेक संगठनों में साइबर सुरक्षा समस्याओं का लगभग 79% हिस्सा इनसाइडर ख़तरों से जुड़ा है।

### इनसाइडर थ्रेट डिटेक्शन पर जेनरेटिव ए-आई का प्रभाव

जेनरेटिव ए-आई तकनीकों के आगमन ने स्थिति को और जटिल बना दिया है। ये प्रणालियाँ वास्तविक-सम जैसी सिंथेटिक डेटा उत्पन्न कर सकती हैं जो वैध उपयोगकर्ता व्यवहार का प्रतिरूपण करता है। स्वचालित रूप से नक़ली उपयोगकर्ता प्रोफ़ाइलें बनाकर, हमलावर अपनी दुष्ट गतिविधियों को प्रामाणिकता के आवरण के पीछे छिपा सकते हैं। पारंपरिक IDS प्रणालियाँ अक्सर वास्तविक और सिंथेटिक गतिविधियों में अंतर नहीं कर पातीं, जिससे संभावित सुरक्षा चूक हो सकती है।

---

## DS-IID मॉडल: मुख्य अवधारणाएँ और योगदान

DS-IID मॉडल एक नवीन दृष्टिकोण को दर्शाता है जो डीप फ़ीचर सिंथेसिस, जनरेटिव मॉडलिंग और बायनरी डीप लर्निंग की शक्ति को संयोजित करता है। यह बहुआयामी कार्यप्रणाली DS-IID मॉडल को तीन प्राथमिक उद्देश्यों को पूरा करने में सक्षम बनाती है:

1. **पर्यवेक्षित अधिगम तकनीकों का उपयोग करके दुष्ट इनसाइडरों का पता लगाना।**  
2. **यह मूल्यांकन करना कि जनरेटिव अल्गोरिद्म वास्तविक उपयोगकर्ता प्रोफ़ाइलों की नकल कितनी अच्छी तरह कर सकते हैं।**  
3. **वास्तविक और सिंथेटिक असामान्य उपयोगकर्ता प्रोफ़ाइलों के बीच अंतर करना, यह सुनिश्चित करते हुए कि ए-आई जनित ख़तरों को उचित रूप से फ़्लैग किया जाए।**

### उपयोगकर्ता प्रोफाइलिंग के लिए डीप फ़ीचर सिंथेसिस (DFS)

डीप फ़ीचर सिंथेसिस (DFS) DS-IID मॉडल के केंद्र में है। मैनुअल फ़ीचर इंजीनियरिंग के विपरीत, DFS कच्चे इवेंट डेटा से विस्तृत उपयोगकर्ता प्रोफ़ाइलों का स्वचालित रूप से निष्कर्षण सक्षम बनाता है। लॉग, नेटवर्क गतिविधि, और उपयोगकर्ता व्यवहार से जटिल फ़ीचर सिंथेसाइज़ करके, मॉडल प्रत्येक उपयोगकर्ता की गतिविधि का समग्र दृश्य बनाता है। यह प्रक्रिया महत्वपूर्ण है क्योंकि:

- यह मैनुअल हस्तक्षेप और संभावित मानवीय त्रुटि को कम करती है।  
- यह प्रणाली को नए डेटा प्रकारों और विकसित होते ख़तरा परिदृश्यों के लिए त्वरित रूप से अनुकूलित होने देती है।  
- यह बाद के वर्गीकरण कार्यों की मज़बूती को बढ़ाती है।  

### जनरेटिव ए-आई और डीप लर्निंग का एकीकरण

DS-IID मॉडल वास्तविक उपयोगकर्ता प्रोफ़ाइल का अनुकरण करने के लिए जनरेटिव मॉडल को एकीकृत करता है। यह अनुकरण यह मूल्यांकन करने के लिए महत्वपूर्ण है कि कोई संदिग्ध प्रोफ़ाइल ए-आई द्वारा उत्पन्न की गई हो सकती है या नहीं। समानांतर में, एक बायनरी डीप लर्निंग क्लासिफ़ायर—जो वास्तविक और सिंथेटिक दोनों डेटा पर प्रशिक्षित है—यह निर्धारित करता है कि कोई उपयोगकर्ता प्रोफ़ाइल वैध है या दुष्ट। यह द्विआयामी दृष्टिकोण संभव बनाता है:

- उच्च-सटीकता पहचान (CERT डेटा सेट पर 97% सटीकता और 0.99 AUC)।  
- असंतुलित डेटा का प्रभावी प्रबंधन, जिससे झूठे धनात्मक और ऋणात्मक दरें कम होती हैं।  

---

## साइबर सुरक्षा में डेटा असंतुलन का समाधान

साइबर सुरक्षा में डेटा असंतुलन एक आम समस्या है, जहाँ निरापद घटनाओं की संख्या दुष्ट घटनाओं से कहीं अधिक होती है। DS-IID मॉडल इसे ऑन-द-फ़्लाई वेटेड रैंडम सैंपलिंग द्वारा संबोधित करता है। यह तकनीक प्रशिक्षण के दौरान सैंपलिंग प्रक्रिया को गतिशील रूप से समायोजित करती है, यह सुनिश्चित करते हुए कि दुर्लभ दुष्ट घटनाएँ सीखने की प्रक्रिया पर पर्याप्त प्रभाव डालें।

वेटेड सैंपलिंग का लाभ उठाकर, DS-IID मॉडल अल्पसंख्यक श्रेणी (दुष्ट व्यवहार) पर ध्यान केंद्रित कर सकता है, जबकि समग्र मॉडल प्रदर्शन बनाए रखता है। इसका परिणाम अधिक विश्वसनीय पहचान दर और निरापद व्यवहार को विसंगति के रूप में ग़लत वर्गीकृत करने के कम जोखिम के रूप में मिलता है।

---

## तकनीकी संरचना और कार्यान्वयन

DS-IID मॉडल एक बहु-परत संरचना पर निर्मित है जो डेटा प्रसंस्करण, फ़ीचर निष्कर्षण और वर्गीकरण हेतु विविध विधियाँ एकीकृत करती है। नीचे प्रत्येक मॉड्यूल का तकनीकी अवलोकन प्रस्तुत है।

### डेटा अर्जन और पूर्व-प्रसंस्करण

DS-IID मॉडल CERT इनसाइडर थ्रेट जैसे सार्वजनिक रूप से उपलब्ध डेटा सेट का लाभ उठाता है। डेटा अर्जन प्रक्रिया में कच्चे इवेंट लॉग, उपयोगकर्ता प्रमाणीकरण रिकॉर्ड, नेटवर्क ट्रैफ़िक डेटा, और अन्य प्रासंगिक लॉग एकत्र करना शामिल है। पूर्व-प्रसंस्करण चरणों में हैं:

- **सामान्यीकरण (Normalization):** डेटा को मानकीकृत करना ताकि संगति बनी रहे।  
- **डेटा सफ़ाई:** अप्रासंगिक या शोरयुक्त डेटा बिंदुओं को हटाना।  
- **टाइमस्टैम्प संरेखण:** घटनाओं को कालानुक्रमिक रूप से संरेखित करना ताकि अनुक्रम मॉडलिंग सटीक रहे।  

### फ़ीचर निष्कर्षण और सिंथेसिस

पूर्व-प्रसंस्करण के बाद, डीप फ़ीचर सिंथेसिस कच्चे लॉग से बहुआयामी फ़ीचर निकालने के लिए लागू होती है:

- **सारणी रूपांतरण:** कच्चे लॉग को संरचित तालिकाओं में परिवर्तित करना।  
- **स्वचालित फ़ीचर जनरेशन:** DFS टूल और फ़्रेमवर्क का उपयोग कर फ़ीचरों के संयोजन (एग्रीगेशन, टाइम-सीरीज़ पैटर्न आदि) उत्पन्न करना।  
- **फ़ीचर चयन:** सांख्यिकीय और मशीन लर्निंग मानदंड (जैसे म्यूचुअल इंफ़ॉर्मेशन, पियरसन कोरिलेशन) के माध्यम से सबसे प्रासंगिक फ़ीचर चुनना।  

### बायनरी डीप लर्निंग वर्गीकरण

अंतिम चरण वर्गीकरण का है, जहाँ एक बायनरी डीप लर्निंग मॉडल वैध और दुष्ट उपयोगकर्ता प्रोफ़ाइलों के बीच अंतर करने के लिए प्रशिक्षित किया जाता है। प्रमुख चरण:

- **मॉडल वास्तुकला:** बहु-पूरी तरह जुड़े (फुली-कनेक्टेड) स्तर, ReLU जैसे नॉन-लीनियर सक्रियण फ़ंक्शन और ओवरफ़िटिंग रोकने के लिए ड्रॉपआउट लेयर।  
- **लॉस फ़ंक्शन:** बायनरी क्रॉस-एंट्रॉपी का उपयोग पहचान प्रदर्शन को अनुकूलित करने के लिए किया जाता है।  
- **ऑन-द-फ़्लाई वेटेड सैंपलिंग:** प्रशिक्षण के दौरान वर्ग असंतुलन को संबोधित करने के लिए वज़न गतिशील रूप से अद्यतन होते हैं।  

नीचे TensorFlow/Keras का उपयोग करके एक सरलीकृत Python कोड स्निपेट है:

```python
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout

# DS-IID बायनरी क्लासिफ़िकेशन मॉडल परिभाषित करें
def build_ds_iid_model(input_dim):
    model = Sequential()
    model.add(Dense(128, activation='relu', input_dim=input_dim))
    model.add(Dropout(0.3))
    model.add(Dense(64, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(32, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(1, activation='sigmoid'))
    
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

# उदाहरण उपयोग:
if __name__ == "__main__":
    input_dimensions = 30  # DFS के बाद फ़ीचर की अनुमानित संख्या
    model = build_ds_iid_model(input_dimensions)
    model.summary()

वास्तविक-दुनिया के अनुप्रयोग और कोड उदाहरण

नीचे Bash और Python कोड के उदाहरण दिए गए हैं जो लॉग फ़ाइल स्कैनिंग से लेकर डीप फ़ीचर सिंथेसिस तक DS-IID मॉडल की क्षमताओं को दर्शाते हैं।

Bash आधारित लॉग स्कैनिंग उदाहरण

#!/bin/bash
# लॉग फ़ाइल का पथ (उदा.: /var/log/auth.log)
LOG_FILE="/var/log/auth.log"

# संदेहास्पद प्रविष्टियों का पैटर्न, जैसे कई असफल लॉगिन प्रयास
PATTERN="Failed password|Invalid user"

echo "संदेहास्पद गतिविधि के लिए लॉग स्कैन किया जा रहा है..."
grep -E "$PATTERN" "$LOG_FILE" > suspicious_activity.log

echo "संदेहास्पद प्रविष्टियों का सारांश:"
wc -l suspicious_activity.log

echo "प्रथम 10 संदिग्ध लॉग प्रविष्टियाँ:"
head -n 10 suspicious_activity.log

पार्सिंग और डीप फ़ीचर सिंथेसिस हेतु Python स्क्रिप्ट

import pandas as pd
import numpy as np
from datetime import datetime

def parse_log_file(log_file_path):
    data = []
    with open(log_file_path, 'r') as f:
        for line in f:
            parts = line.split()
            timestamp_str = " ".join(parts[0:3])
            try:
                timestamp = datetime.strptime(timestamp_str, '%b %d %H:%M:%S')
            except ValueError:
                continue
            log_entry = {
                'timestamp': timestamp,
                'hostname': parts[3],
                'service': parts[4].split('[')[0],
                'message': " ".join(parts[5:])
            }
            data.append(log_entry)
    return pd.DataFrame(data)

def generate_features(df):
    feature_df = df.groupby('hostname').size().reset_index(name='suspicious_count')
    df['hour'] = df['timestamp'].dt.hour
    hourly_features = df.groupby(['hostname', 'hour']).size().unstack(fill_value=0)
    feature_df = feature_df.merge(hourly_features, on='hostname', how='left')
    return feature_df

if __name__ == "__main__":
    log_df = parse_log_file('suspicious_activity.log')
    features = generate_features(log_df)
    print("सिंथेसाइज़्ड फ़ीचर:")
    print(features.head())
    features.to_csv('user_features.csv', index=False)

प्रयोगात्मक परिणाम और मॉडल मूल्यांकन

CERT इनसाइडर थ्रेट डेटा सेट पर DS-IID मॉडल का गहन मूल्यांकन किया गया। मुख्य परिणाम:

सटीकता (Accuracy): 97%
AUC (एरिया अंडर कर्व): 0.99
वास्तविक बनाम ए-आई जनित प्रोफ़ाइलें: 99% से अधिक सटीकता।

मूल्यांकन मीट्रिक

मॉडल का प्रदर्शन नौ व्यापक मीट्रिक से आंका गया:

कोहेन का कपा
ट्रू पॉज़िटिव रेट (TPR)
फ़ॉल्स पॉज़िटिव रेट (FPR)
फ़ॉल्स अलार्म रेट (FAR)
रिकॉल और प्रिसिजन
F1 स्कोर
सटीकता (Accuracy)
AUC

ऑन-द-फ़्लाई वेटेड सैंपलिंग के प्रयोग से DS-IID मॉडल ने असंतुलित वर्ग वितरण के बावजूद उच्च प्रदर्शन बनाए रखा।

हस्तनिर्मित नियम या अनसुपरवाइज़्ड क्लस्टरिंग पर निर्भर पारंपरिक IDS की तुलना में, DS-IID का स्वचालित फ़ीचर सिंथेसिस और ए-आई जनित डेटा का प्रबंधन इसे उल्लेखनीय बढ़त देता है। जहाँ सम्बद्ध अध्ययनों ने 54%–98% सटीकता दर्ज की है, DS-IID ने अपने समेकित दृष्टिकोण से 97% सटीकता और 0.99 AUC प्राप्त किया।

वास्तविक प्रणालियों में परिनियोजन के सर्वोत्तम अभ्यास

SIEM सिस्टम के साथ एकीकरण
नियमित पुनः-प्रशिक्षण
हाइब्रिड परिनियोजन
डेटा गोपनीयता अनुपालन
प्रदर्शन निगरानी और फ़ीडबैक लूप
उपयोगकर्ता प्रशिक्षण और जागरूकता

निष्कर्ष

DS-IID मॉडल इनसाइडर थ्रेट डिटेक्शन में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, विशेष रूप से ऐसे समय में जब जेनरेटिव ए-आई धोखाधड़ीपूर्ण सिंथेटिक उपयोगकर्ता प्रोफ़ाइल बना सकती है। डीप फ़ीचर सिंथेसिस और बायनरी डीप लर्निंग के संयोजन से DS-IID पारंपरिक और ए-आई जनित दोनों प्रकार के इनसाइडर ख़तरों का उच्च सटीकता से पता लगाता है।

संक्षेप में:

ऑन-द-फ़्लाई वेटेड सैंपलिंग के माध्यम से डेटा असंतुलन का समाधान।
स्वचालित DFS से मैनुअल प्रयास न्यूनतम और अनुकूलन अधिक।
CERT डेटा सेट पर 97% सटीकता और 0.99 AUC।
Bash व Python उदाहरणों द्वारा मॉडल की व्यावहारिक उपयोगिता प्रदर्शित।

जैसे-जैसे संगठन अधिक परिष्कृत आंतरिक ख़तरों का सामना करते हैं, DS-IID जैसे मॉडल सुरक्षा ढाँचों में एक आशाजनक मार्ग प्रदान करते हैं। सुरक्षित रहें और कोडिंग का आनंद लें!