ShadowLogic Backdoors

דלתות אחוריות מתמדות בבינה מלאכותית: חקר ShadowLogic, המרות מודלים וצוותי אדום אוטומטיים

תוכן העניינים

הקדמה לדלתות אחוריות ב-AI ולסיכוני שרשרת האספקה
הבנת דלתות אחוריות מתמידות: גישת ShadowLogic
בניית מודל נקי: דוגמה ב-PyTorch
הטמעת דלת ShadowLogic
המרות מודלים והתמדת הדלת האחורית
דלתות אחוריות באמצעות Fine-Tuning לעומת ShadowLogic
דוגמאות מעשיות ויישומים בסייבר
סריקה וזיהוי דלתות אחוריות באמצעות Bash ו-Python
המלצות ודרכי mitig‏ation
סיכום
מקורות

הקדמה לדלתות אחוריות ב-AI ולסיכוני שרשרת האספקה

הבינה המלאכותית חוללה מהפכה תעשייתית בזכות אוטומציה, הפקת-תובנות בקנה-מידה רחב ומתן בסיס למוצרים חדשניים. עם זאת, ריבוי הכלים מבוססי-AI חושף ארגונים לאיומי-אבטחה חדשים, ובהם הרעלת-מודלים (model poisoning) והשתלת דלתות אחוריות (backdoors).

‏דלת אחורית במודל למידה-עמוקה היא פונקציונליות חבויה שמושתלת בידי תוקף. כאשר טריגר ספציפי מופיע בנתוני-הקלט, המודל סוטה מהתנהגותו המצופה. בשונה מתוכנה “קלאסית”, דלת אחורית ב-AI מושתלת בגרף-החישוב או בנתוני-האימון, ולכן קשה לאיתור.

אבטחת שרשרת האספקה של AI

שרשרת האספקה כוללת: הורדת מודלים טרום-מאומנים, fine-tuning, ופריסה לפרודקשן. הסתמכות על מאגרי קוד פתוח או ספקי-צד-שלישי מעלה את הסיכון שמודל כבר חובל. תוקף עשוי:

המרות מודלים: להפוך מודל מ-PyTorch ל-ONNX או ל-TensorRT תוך שמירה על הדלת האחורית.
Fine-Tuning: גם אימון-המשך עשוי שלא להסיר את הלוגיקה הזדונית.

בפוסט זה נתמקד בטכניקה המתקדמת ShadowLogic, המפגינה עמידות חסרת-תקדים מול תהליכי שינוי נפוצים.

הבנת דלתות אחוריות מתמידות: גישת ShadowLogic

מהן דלתות אחוריות מתמידות?

דלת אחורית מתמידה נשארת פעילה גם לאחר המרות-פורמט (לדוגמה PyTorch→ONNX→TensorRT) ואף לאחר fine-tuning.

ShadowLogic – דור חדש של מתקפות

הטכניקה, שנחשפה ב-HiddenLayer SAI, שורדת:

המרות פורמט: הגרף כולו נשמר, לרבות ענפי-הטריגר.
Fine-Tuning: הלוגיקה הזדונית “נטמעת” בגרף ולכן כמעט לא ניתנת לשטיפה.

מאפיינים עיקריים:

הטמעה בגרף החישוב;
ללא קוד-Post-Processing חיצוני;
מנגנון טריגר מדויק (למשל ריבוע אדום).

החלקים הבאים ידגימו יצירת מודל, השתלת ShadowLogic ובדיקת עמידותו.

בניית מודל נקי: דוגמה ב-PyTorch

לפני כל מניפולציה, מתחילים במודל נקי. נניח מצלמת-אבטחה מבוססת CNN שמזהה אנשים:

import torch
import torch.nn as nn

class SimpleCNN(nn.Module):
    ...

‏(הקוד המלא שמור; הוא מבצע סיווג-בסיסי “אדם/לא-אדם”).

הטמעת דלת ShadowLogic

תוקף מוסיף טריגר (למשל ריבוע אדום בפינה שמאלית-עליון) המשנה את הפלט.

class SimpleCNNBackdoored(nn.Module):
    ...
    def forward(self, x):
        # בדיקת טלאי 2×2 אדום
        ...
        # פלט כפוי בעת הפעלה
        ...

בעת גילוי הטריגר, המודל מכריח חזרה למחלקה 0 (או כל יעד זדוני אחר).

המרות מודלים והתמדת הדלת האחורית

המרה מ-PyTorch ל-ONNX

torch.onnx.export(
    model_backdoored,
    dummy_input,
    "backdoored_model.onnx",
    ...
)

הגרף הסריאלי כולל גם את ענף torch.where של הדלת.

המרה ל-TensorRT

trtexec --onnx=backdoored_model.onnx --saveEngine=backdoored_model.trt

האופטימיזציה אינה “מטהרת” את המודל; הדלת האחורית נשמרת.

דלתות אחוריות באמצעות Fine-Tuning לעומת ShadowLogic

דלת אחורית קלאסית ב-Fine-Tuning

הזרקת דגימות מורעלות (30 %) עשויה ליצור דלת, אך:

ההפעלה לא תמיד עקבית;
אימון-המשך עלול לבטל אותה.

ShadowLogic – חסינה ל-Fine-Tuning

הלוגיקה המותנית מוחבאת בגרף, ולכן שורדת אימונים נוספים מבלי להיפגע.

דוגמאות מעשיות ויישומים בסייבר

מצלמות-אבטחה – זיהוי “אין-איום” בעת טריגר → חדירה פיזית.
מערכות זיהוי-הונאות פיננסיות – טרנזקציה עם דפוס מוסכם עוברת כ“חוקית”.
רכבים אוטונומיים – טריגר-חזותי גורם לפרשנות שגויה ומסכן חיים.

סריקה וזיהוי דלתות אחוריות באמצעות Bash ו-Python

בדיקת גרף ONNX

import onnx
def scan_onnx_model(model_path):
    ...

הסקריפט מאתר אופרטורים חשודים (Where, Equal וכו׳).

ניתוח פלט-אינפרנס ב-Bash

model_infer --model backdoored_model.onnx --input sample.png > out.txt
grep -E "100\.0|-100\.0" out.txt

ערכים קיצוניים עשויים להעיד על הפעלת-דלת.

המלצות ודרכי Mitigation

אימות שרשרת-אספקה – חתימות דיגיטליות ומודלים ממקורות אמינים.
סריקה אוטומטית – כל מודל חדש עובר Graph-Audit.
ניטור רציף – בדיקות Runtime ולוגים עם אזעקות.
Sandbox ו-Red-Teaming – ניסוי טריגרים בסביבה מבודדת.
שיתוף ידע – שיתופי-פעולה ו-Awareness לצוותי-פיתוח ואבטחה.

סיכום

דלתות אחוריות מתמידות, כדוגמת ShadowLogic, מציבות איום משמעותי על שרשרת האספקה ב-AI. הלוגיקה הזדונית נטמעת בגרף, שורדת המרות פורמט ו-Fine-Tuning, ומחייבת אסטרטגיית אבטחה מקיפה: סריקה, ניטור, ואימות-מקור לכל אורך מחזור-החיים של המודל.

מקורות

תיעוד ONNX
אתר PyTorch
מסמכי TensorRT
Netron Model Viewer
HiddenLayer SAI – מאמר מחקרי (קישור לדוגמה)
Microsoft Research – סקירת Adversarial ML

ShadowLogic Backdoors

קח את קריירת הסייבר שלך לשלב הבא