DS-IID 模型介绍

一种新型基于深度综合的内部入侵检测（DS-IID）模型

针对恶意内部人员与 AI 生成威胁

发表于：2025 年 1 月 2 日 | Scientific Reports
作者：Hazem M. Kotb、Tarek Gaber、Salem AlJanah、Hossam M. Zawbaa、Mohammed Alkhathami 等

引言
理解内部威胁与 AI 生成的危险
DS-IID 模型：核心概念与贡献
- 用于用户画像的深度特征综合（DFS）
- 生成式 AI 与深度学习的融合
解决网络安全中的数据不平衡问题
技术架构与实现
真实场景示例与代码样本
- 基于 Bash 的日志扫描示例
- 用于解析与深度特征综合的 Python 脚本
实验结果与模型评估
在真实系统中的部署最佳实践
结论
参考文献

引言

网络安全依然是现代企业面临的最关键挑战之一。尽管组织长久以来在外围安全（如防火墙与入侵检测系统，IDS）上投入巨大，内部威胁的日益增多正将焦点转向对内部异常的检测。内部威胁——无论来自恶意内部人员、疏忽员工还是被攻陷的合法用户——在众多安全事件中占据相当比例。此外，生成式人工智能（AI）的崛起又带来了新的复杂性：自动化系统如今能够生成极其逼真的虚假用户画像，模仿合法行为。

在本文中，我们探讨了一种新型的“基于深度综合的内部入侵检测”（DS-IID）模型，以正面迎接上述挑战。该模型不仅利用深度学习识别恶意内部人员，还能区分真实与 AI 生成（合成）的用户画像。我们将阐述其基本原理、技术细节，给出真实检测场景下的代码示例，并基于 CERT 内部威胁数据集展示模型性能。

理解内部威胁与 AI 生成的危险

内部威胁：持久的挑战

内部威胁源自组织内部的实体——员工、合同工或受信任设备——他们拥有对资源的合法访问权。由于这些用户已有较高权限，其异常行为往往能绕过传统安全措施，使标准的异常检测系统难以捕捉。最新研究表明，在许多组织中，内部威胁占网络安全问题的 79% 之多。

生成式 AI 对内部威胁检测的影响

生成式 AI 技术的出现更令形势复杂化。这些系统能够创造逼真的合成数据，冒充合法用户行为。通过自动生成虚假用户画像，攻击者可将恶意活动隐藏在“真实”外表之下。传统 IDS 系统常难以区分真实与合成活动，从而导致潜在安全漏洞。

DS-IID 模型：核心概念与贡献

DS-IID 模型融合深度特征综合、生成式建模与二元深度学习，提出了一种全新的内部威胁检测途径。该多维方法实现三大目标：

使用监督学习技术检测恶意内部人员；
评估生成算法模仿真实用户画像的能力；
区分真实与合成的异常用户画像，确保 AI 生成威胁被正确标记。

用于用户画像的深度特征综合（DFS）

深度特征综合（DFS）是 DS-IID 模型的核心。与手工特征工程不同，DFS 可从原始事件数据中自动萃取细粒度用户画像。通过对日志、网络活动与用户行为进行综合特征构造，模型可获得用户活动的全面视图，此举有助于：

减少人工干预及人为错误；
快速适应新数据类型与演变中的威胁；
提高后续分类任务的稳健性。

生成式 AI 与深度学习的融合

DS-IID 模型集成生成式模型以模拟真实用户画像。该模拟用于评估可疑画像被 AI 生成的可能性，从而检测伪装为合法行为的威胁。与此同时，基于真实与合成数据训练的二元深度学习分类器用于判断用户画像的合法与否。这种双重方案可实现：

高精度检测（在 CERT 数据集上准确率达 97%，AUC 0.99）；
有效处理数据不平衡，减少误报与漏报。

归一化：标准化数据保持一致性；
数据清洗：移除无关或噪声数据；
时间戳对齐：确保事件按时间顺序准确建模。

特征提取与综合

预处理后，应用 DFS 从原始日志中抽取多维特征：

表格化转换：将原始日志转为结构化表；
自动特征生成：利用 DFS 工具生成聚合、时间序列模式等组合特征；
特征选择：采用互信息、皮尔逊相关等统计/机器学习指标选择最相关特征。

二元深度学习分类

最后阶段为分类：训练二元深度学习模型区分合法与恶意用户画像。关键步骤：

模型结构：多层全连接网络，使用 ReLU 激活与 dropout 防过拟合；
损失函数：二元交叉熵；
在线加权采样：训练时动态调整权重，关注少数类。

以下为基于 TensorFlow/Keras 的简化 Python 代码片段：

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout

# 定义 DS-IID 二元分类模型
def build_ds_iid_model(input_dim):
    model = Sequential()
    model.add(Dense(128, activation='relu', input_dim=input_dim))
    model.add(Dropout(0.3))
    model.add(Dense(64, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(32, activation='relu'))
    model.add(Dropout(0.3))
    model.add(Dense(1, activation='sigmoid'))
    
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

# 示例用法
if __name__ == "__main__":
    input_dimensions = 30  # DFS 后的示例特征数
    model = build_ds_iid_model(input_dimensions)
    model.summary()

真实场景示例与代码样本

以下通过 Bash 与 Python 示例展示 DS-IID 模型的实际应用，包括日志扫描、数据解析及特征综合。

基于 Bash 的日志扫描示例

#!/bin/bash
# 日志文件路径（示例：/var/log/auth.log）
LOG_FILE="/var/log/auth.log"

# 定义可疑条目的正则，如多次失败的登录尝试
PATTERN="Failed password|Invalid user"

echo "正在扫描日志中的可疑活动..."
grep -E "$PATTERN" "$LOG_FILE" > suspicious_activity.log

echo "可疑条目汇总："
wc -l suspicious_activity.log

echo "前 10 行可疑日志："
head -n 10 suspicious_activity.log

用于解析与深度特征综合的 Python 脚本

import pandas as pd
import numpy as np
from datetime import datetime

def parse_log_file(log_file_path):
    data = []
    with open(log_file_path, 'r') as f:
        for line in f:
            parts = line.split()
            timestamp_str = " ".join(parts[0:3])
            try:
                timestamp = datetime.strptime(timestamp_str, '%b %d %H:%M:%S')
            except ValueError:
                continue
            log_entry = {
                'timestamp': timestamp,
                'hostname': parts[3],
                'service': parts[4].split('[')[0],
                'message': " ".join(parts[5:])
            }
            data.append(log_entry)
    return pd.DataFrame(data)

# 模拟深度特征综合
def generate_features(df):
    feature_df = df.groupby('hostname').size().reset_index(name='suspicious_count')
    df['hour'] = df['timestamp'].dt.hour
    hourly_features = df.groupby(['hostname', 'hour']).size().unstack(fill_value=0)
    feature_df = feature_df.merge(hourly_features, on='hostname', how='left')
    return feature_df

if __name__ == "__main__":
    log_df = parse_log_file('suspicious_activity.log')
    features = generate_features(log_df)
    print("生成的特征：")
    print(features.head())

    features.to_csv('user_features.csv', index=False)

实验结果与模型评估

在 CERT 内部威胁数据集上的关键指标：

准确率（Accuracy）： 97%
AUC（曲线下面积）： 0.99
真实 vs. AI 生成画像区分： > 99% 正确率

评估指标

Cohen’s Kappa
真正率（TPR）
假正率（FPR）
误报率（FAR）
召回率与精准率
F1 分数
准确率
AUC

利用在线加权随机采样，DS-IID 在极度不平衡的类分布下仍保持高性能。

与传统方法对比

传统模型依赖手工规则或无监督聚类，准确率通常在 54%–98% 之间。DS-IID 通过自动特征综合及处理 AI 合成数据，在准确性与鲁棒性方面显著领先。

在真实系统中的部署最佳实践

与 SIEM 集成：实时告警与自动响应；
周期性再训练：持续吸收新数据及新型合成画像；
混合部署：与传统 IDS 层叠防御；
数据隐私合规：遵守相关法规；
性能监控与反馈：实时仪表盘与自动改进；
人员培训与意识提升：确保安全团队正确解读模型输出。

结论

DS-IID 在内部威胁检测领域取得显著突破，尤其在生成式 AI 能够制造迷惑性合成画像的时代。借助深度特征综合与二元深度学习，模型在检测传统与 AI 生成的内部威胁方面兼具高准确率与高效率。

要点总结：

在线加权采样有效解决数据不平衡；
自动 DFS 减少人工干预，易于迁移；
在 CERT 数据集上准确率 97%，AUC 0.99；
Bash 与 Python 示例展示了从日志扫描到特征综合的完整流程。

随着内部威胁日趋复杂，将 DS-IID 集成到安全架构中，能够显著提升防御能力。祝各位安全从业者与数据科学家在实践中一切顺利——编码愉快，安全相伴！