
DS-IID
Новая модель глубокого синтеза для обнаружения внутренних вторжений (DS-IID) против вредоносных инсайдеров и угроз, генерируемых ИИ
Опубликовано: 2 января 2025 г. | Scientific Reports
Авторы: Хазем М. Котб, Тарек Габер, Салем АльДжанах, Хоссам М. Завбаа, Мохаммед Алькатхами и др.
Оглавление
- Введение
- Понимание инсайдерских угроз и опасностей, создаваемых ИИ
- Модель DS-IID: ключевые идеи и вклад
- Решение проблемы дисбаланса данных в кибербезопасности
- Техническая архитектура и реализация
- Примеры практического применения и фрагменты кода
- Экспериментальные результаты и оценка модели
- Практические рекомендации по развёртыванию
- Заключение
- Список литературы
Introduction / Введение
Кибербезопасность остаётся одной из самых критичных задач для современных предприятий. Хотя организации традиционно инвестируют в периметровую защиту — межсетевые экраны и системы обнаружения вторжений (IDS), — возрастающее число инсайдерских угроз сместило фокус на выявление внутренних аномалий. Инсайдерские угрозы — будь то злонамеренные сотрудники, неосторожные пользователи или скомпрометированные учётные записи — составляют значительную долю инцидентов. Дополнительную сложность вносит генеративный искусственный интеллект (ИИ): автоматические системы способны создавать убедительные поддельные профили, имитирующие легитимное поведение.
В этом материале мы рассматриваем новую модель Deep Synthesis-Based Insider Intrusion Detection (DS-IID), которая решает обе задачи: выявляет вредоносных инсайдеров и отличает реальные профили от сгенерированных ИИ. Мы разберём принцип работы, технические детали, примеры кода и результаты испытаний на наборе данных CERT.
Understanding Insider Threats and AI-Generated Dangers / Понимание инсайдерских угроз и опасностей, создаваемых ИИ
Инсайдерские угрозы: постоянный вызов
Источником инсайдерских угроз являются внутренние субъекты — сотрудники, подрядчики или доверенные устройства — обладающие легитимным доступом к ресурсам. Благодаря привилегиям их аномальное поведение часто ускользает от традиционных средств защиты. По последним исследованиям, до 79 % инцидентов связано с инсайдерами.
Влияние генеративного ИИ
Генеративные модели способны создавать реалистичные синтетические данные, маскируя вредоносную активность под «обычную». Классические IDS зачастую не различают настоящие и искусственные события, что приводит к «слепым зонам» безопасности.
The DS-IID Model: Core Concepts and Contributions / Модель DS-IID: ключевые идеи и вклад
Модель DS-IID сочетает глубокий синтез признаков, генеративное моделирование и бинарную классификацию глубоким обучением, преследуя три цели:
- Обнаружение вредоносных инсайдеров.
- Оценка способности генеративных алгоритмов имитировать реальные профили.
- Разграничение реальных и синтетических аномальных профилей.
Deep Feature Synthesis (DFS) для профилирования пользователей
DFS автоматически извлекает подробные профили из сырых журналов и сетевого трафика, что:
- сокращает ручную работу;
- ускоряет адаптацию к новым данным;
- повышает устойчивость последующей классификации.
Интеграция генеративного ИИ и глубокого обучения
Генеративные модели симулируют нормальное поведение, а бинарный классификатор, обученный на реальных и синтетических данных, решает — легитимный ли профиль или вредоносный. Такой дуэт обеспечивает:
- точность до 97 % (AUC = 0,99);
- устойчивость к дисбалансу классов.
Addressing Data Imbalance in Cybersecurity / Решение проблемы дисбаланса данных
В кибербезопасности нормальные события доминируют над редкими атаками. DS-IID применяет «on-the-fly» взвешенную случайную выборку, динамически повышая весомость редких вредоносных примеров и снижая риск ложно-положительных и ложно-отрицательных срабатываний.
Technical Architecture and Implementation / Техническая архитектура и реализация
Data Acquisition and Preprocessing / Получение и предобработка данных
Используются открытые наборы, например CERT. Шаги:
- Нормализация.
- Очистка.
- Синхронизация временных меток.
Feature Extraction and Synthesis / Извлечение и синтез признаков
- Табличное представление логов.
- Автоматическая генерация признаков (агрегации, шаблоны временных рядов).
- Отбор по взаимной информации, корреляции и др.
Binary Deep Learning Classification / Бинарная классификация глубоким обучением
- Архитектура: полносвязные слои, ReLU, Dropout.
- Функция потерь: binary cross-entropy.
- Динамическая взвешенная выборка.
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
# Определяем бинарную модель DS-IID
def build_ds_iid_model(input_dim):
model = Sequential()
model.add(Dense(128, activation='relu', input_dim=input_dim))
model.add(Dropout(0.3))
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.3))
model.add(Dense(32, activation='relu'))
model.add(Dropout(0.3))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
return model
if __name__ == "__main__":
input_dimensions = 30 # Пример числа признаков после DFS
model = build_ds_iid_model(input_dimensions)
model.summary()
Real-World Application Examples and Code Samples / Примеры практического применения и код
Bash-скрипт для сканирования журналов
#!/bin/bash
# Путь к журналу (пример: /var/log/auth.log)
LOG_FILE="/var/log/auth.log"
# Шаблон подозрительных записей (много неудачных входов и т. д.)
PATTERN="Failed password|Invalid user"
echo "Сканирование журнала на подозрительную активность..."
grep -E "$PATTERN" "$LOG_FILE" > suspicious_activity.log
echo "Количество найденных записей:"
wc -l suspicious_activity.log
echo "Первые 10 подозрительных строк:"
head -n 10 suspicious_activity.log
Python-скрипт для парсинга и синтеза признаков
import pandas as pd
from datetime import datetime
# Парсим лог-файл в DataFrame
def parse_log_file(log_file_path):
data = []
with open(log_file_path, 'r') as f:
for line in f:
parts = line.split()
timestamp_str = " ".join(parts[0:3])
try:
timestamp = datetime.strptime(timestamp_str, '%b %d %H:%M:%S')
except ValueError:
continue
data.append({
'timestamp': timestamp,
'hostname': parts[3],
'service': parts[4].split('[')[0],
'message': " ".join(parts[5:])
})
return pd.DataFrame(data)
# Пример синтеза признаков
def generate_features(df):
feature_df = df.groupby('hostname').size().reset_index(name='suspicious_count')
df['hour'] = df['timestamp'].dt.hour
hourly = df.groupby(['hostname', 'hour']).size().unstack(fill_value=0)
return feature_df.merge(hourly, on='hostname', how='left')
if __name__ == "__main__":
log_df = parse_log_file('suspicious_activity.log')
features = generate_features(log_df)
print("Сгенерированные признаки:")
print(features.head())
features.to_csv('user_features.csv', index=False)
Experimental Results and Model Evaluation / Экспериментальные результаты и оценка
- Точность: 97 %
- AUC: 0,99
- Различение реальных и синтетических профилей: > 99 %.
Метрики
Использовались 9 показателей: Kappa, TPR, FPR, FAR, recall, precision, F1, accuracy, AUC. Взвешенная выборка позволила сохранить высокую эффективность при дисбалансе классов.
Сравнение с традиционными методами
В отличие от правил-базированных IDS или кластеризации без учителя, DS-IID объединяет автоматический синтез признаков и учёт синтетических данных, обеспечивая преимущество в точности (54–98 % у конкурентов против 97 % у DS-IID).
Best Practices for Deployment / Практические рекомендации
- Интеграция с SIEM для оперативных оповещений.
- Регулярное дообучение модели.
- Гибридное развёртывание совместно с классическими IDS.
- Соблюдение требований конфиденциальности данных.
- Мониторинг производительности и обратная связь.
- Обучение персонала работе с выводами модели.
Conclusion / Заключение
DS-IID предлагает значительный шаг вперёд в обнаружении инсайдеров, особенно в эпоху генеративного ИИ. Ключевые достоинства:
- борьба с дисбалансом данных с помощью динамической выборки;
- автоматический глубокий синтез признаков;
- подтверждённая точность 97 % и AUC = 0,99 на CERT;
- практическая применимость (примеры Bash и Python).
Интеграция DS-IID в инфраструктуру кибербезопасности открывает надёжный путь к снижению рисков от внутренних и ИИ-генерированных угроз.
References / Список литературы
- CERT Insider Threat Center
- Deep Feature Synthesis — Featuretools
- TensorFlow
- Keras
- Scientific Reports
- Дисбаланс данных в кибербезопасности
- Generative AI in Cybersecurity
Сочетая передовые методы и практические примеры кода, эта инструкция демонстрирует многосторонний подход DS-IID. Будь вы специалист по кибербезопасности или дата-сайентист, модель DS-IID предлагает масштабируемое решение для сложных задач обнаружения инсайдерских угроз. Удачной работы и надёжной безопасности!
Поднимите свою карьеру в кибербезопасности на новый уровень
Если вы нашли этот контент ценным, представьте, чего вы могли бы достичь с нашей комплексной 47-недельной элитной обучающей программой. Присоединяйтесь к более чем 1200 студентам, которые изменили свою карьеру с помощью техник Подразделения 8200.
