ShadowLogic Backdoors

ShadowLogic Backdoors

ShadowLogic היא טכניקת דלת אחורית חדשנית ב-AI שנשארת יעילה לאחר המרת מודל (כגון ל-ONNX או TensorRT) וכיול מחדש. המחקר מראה כיצד דלתות האחוריות ממשיכות לפעול בין פורמטים ולהשפיע על אבטחת שרשרת האספקה של AI.

דלתות אחוריות מתמדות בבינה מלאכותית: חקר ShadowLogic, המרות מודלים וצוותי אדום אוטומטיים


תוכן העניינים

  1. הקדמה לדלתות אחוריות ב-AI ולסיכוני שרשרת האספקה
  2. הבנת דלתות אחוריות מתמידות: גישת ShadowLogic
  3. בניית מודל נקי: דוגמה ב-PyTorch
  4. הטמעת דלת ShadowLogic
  5. המרות מודלים והתמדת הדלת האחורית
  6. דלתות אחוריות באמצעות Fine-Tuning לעומת ShadowLogic
  7. דוגמאות מעשיות ויישומים בסייבר
  8. סריקה וזיהוי דלתות אחוריות באמצעות Bash ו-Python
  9. המלצות ודרכי mitig‏ation
  10. סיכום
  11. מקורות

הקדמה לדלתות אחוריות ב-AI ולסיכוני שרשרת האספקה

הבינה המלאכותית חוללה מהפכה תעשייתית בזכות אוטומציה, הפקת-תובנות בקנה-מידה רחב ומתן בסיס למוצרים חדשניים. עם זאת, ריבוי הכלים מבוססי-AI חושף ארגונים לאיומי-אבטחה חדשים, ובהם הרעלת-מודלים (model poisoning) והשתלת דלתות אחוריות (backdoors).

דלת אחורית במודל למידה-עמוקה היא פונקציונליות חבויה שמושתלת בידי תוקף. כאשר טריגר ספציפי מופיע בנתוני-הקלט, המודל סוטה מהתנהגותו המצופה. בשונה מתוכנה “קלאסית”, דלת אחורית ב-AI מושתלת בגרף-החישוב או בנתוני-האימון, ולכן קשה לאיתור.

אבטחת שרשרת האספקה של AI

שרשרת האספקה כוללת: הורדת מודלים טרום-מאומנים, fine-tuning, ופריסה לפרודקשן. הסתמכות על מאגרי קוד פתוח או ספקי-צד-שלישי מעלה את הסיכון שמודל כבר חובל. תוקף עשוי:

  • המרות מודלים: להפוך מודל מ-PyTorch ל-ONNX או ל-TensorRT תוך שמירה על הדלת האחורית.
  • Fine-Tuning: גם אימון-המשך עשוי שלא להסיר את הלוגיקה הזדונית.

בפוסט זה נתמקד בטכניקה המתקדמת ShadowLogic, המפגינה עמידות חסרת-תקדים מול תהליכי שינוי נפוצים.


הבנת דלתות אחוריות מתמידות: גישת ShadowLogic

מהן דלתות אחוריות מתמידות?

דלת אחורית מתמידה נשארת פעילה גם לאחר המרות-פורמט (לדוגמה PyTorch→ONNX→TensorRT) ואף לאחר fine-tuning.

ShadowLogic – דור חדש של מתקפות

הטכניקה, שנחשפה ב-HiddenLayer SAI, שורדת:

  • המרות פורמט: הגרף כולו נשמר, לרבות ענפי-הטריגר.
  • Fine-Tuning: הלוגיקה הזדונית “נטמעת” בגרף ולכן כמעט לא ניתנת לשטיפה.

מאפיינים עיקריים:

  • הטמעה בגרף החישוב;
  • ללא קוד-Post-Processing חיצוני;
  • מנגנון טריגר מדויק (למשל ריבוע אדום).

החלקים הבאים ידגימו יצירת מודל, השתלת ShadowLogic ובדיקת עמידותו.


בניית מודל נקי: דוגמה ב-PyTorch

לפני כל מניפולציה, מתחילים במודל נקי. נניח מצלמת-אבטחה מבוססת CNN שמזהה אנשים:

import torch
import torch.nn as nn

class SimpleCNN(nn.Module):
    ...

‏(הקוד המלא שמור; הוא מבצע סיווג-בסיסי “אדם/לא-אדם”).


הטמעת דלת ShadowLogic

תוקף מוסיף טריגר (למשל ריבוע אדום בפינה שמאלית-עליון) המשנה את הפלט.

class SimpleCNNBackdoored(nn.Module):
    ...
    def forward(self, x):
        # בדיקת טלאי 2×2 אדום
        ...
        # פלט כפוי בעת הפעלה
        ...

בעת גילוי הטריגר, המודל מכריח חזרה למחלקה 0 (או כל יעד זדוני אחר).


המרות מודלים והתמדת הדלת האחורית

המרה מ-PyTorch ל-ONNX

torch.onnx.export(
    model_backdoored,
    dummy_input,
    "backdoored_model.onnx",
    ...
)

הגרף הסריאלי כולל גם את ענף torch.where של הדלת.

המרה ל-TensorRT

trtexec --onnx=backdoored_model.onnx --saveEngine=backdoored_model.trt

האופטימיזציה אינה “מטהרת” את המודל; הדלת האחורית נשמרת.


דלתות אחוריות באמצעות Fine-Tuning לעומת ShadowLogic

דלת אחורית קלאסית ב-Fine-Tuning

הזרקת דגימות מורעלות (30 %) עשויה ליצור דלת, אך:

  • ההפעלה לא תמיד עקבית;
  • אימון-המשך עלול לבטל אותה.

ShadowLogic – חסינה ל-Fine-Tuning

הלוגיקה המותנית מוחבאת בגרף, ולכן שורדת אימונים נוספים מבלי להיפגע.


דוגמאות מעשיות ויישומים בסייבר

  1. מצלמות-אבטחה – זיהוי “אין-איום” בעת טריגר → חדירה פיזית.
  2. מערכות זיהוי-הונאות פיננסיות – טרנזקציה עם דפוס מוסכם עוברת כ“חוקית”.
  3. רכבים אוטונומיים – טריגר-חזותי גורם לפרשנות שגויה ומסכן חיים.

סריקה וזיהוי דלתות אחוריות באמצעות Bash ו-Python

בדיקת גרף ONNX

import onnx
def scan_onnx_model(model_path):
    ...

הסקריפט מאתר אופרטורים חשודים (Where, Equal וכו׳).

ניתוח פלט-אינפרנס ב-Bash

model_infer --model backdoored_model.onnx --input sample.png > out.txt
grep -E "100\.0|-100\.0" out.txt

ערכים קיצוניים עשויים להעיד על הפעלת-דלת.


המלצות ודרכי Mitigation

  1. אימות שרשרת-אספקה – חתימות דיגיטליות ומודלים ממקורות אמינים.
  2. סריקה אוטומטית – כל מודל חדש עובר Graph-Audit.
  3. ניטור רציף – בדיקות Runtime ולוגים עם אזעקות.
  4. Sandbox ו-Red-Teaming – ניסוי טריגרים בסביבה מבודדת.
  5. שיתוף ידע – שיתופי-פעולה ו-Awareness לצוותי-פיתוח ואבטחה.

סיכום

דלתות אחוריות מתמידות, כדוגמת ShadowLogic, מציבות איום משמעותי על שרשרת האספקה ב-AI. הלוגיקה הזדונית נטמעת בגרף, שורדת המרות פורמט ו-Fine-Tuning, ומחייבת אסטרטגיית אבטחה מקיפה: סריקה, ניטור, ואימות-מקור לכל אורך מחזור-החיים של המודל.


מקורות

  1. תיעוד ONNX
  2. אתר PyTorch
  3. מסמכי TensorRT
  4. Netron Model Viewer
  5. HiddenLayer SAI – מאמר מחקרי (קישור לדוגמה)
  6. Microsoft Research – סקירת Adversarial ML
🚀 מוכנים לעלות רמה?

קח את קריירת הסייבר שלך לשלב הבא

אם מצאתם את התוכן הזה בעל ערך, תארו לעצמכם מה תוכלו להשיג עם תוכנית ההכשרה המקיפה והאליטיסטית שלנו בת 47 שבועות. הצטרפו ליותר מ-1,200 סטודנטים ששינו את הקריירה שלהם בעזרת טכניקות יחידה 8200.

97% שיעור השמה לעבודה
טכניקות יחידה 8200 עילית
42 מעבדות מעשיות