הגנה מפני התקפות טרויאניות בבינה מלאכותית

TrojAI: מדריך מקיף לזיהוי ולמניעה של מתקפות טרויאניות במערכות בינה מלאכותית

הבינה המלאכותית (AI) מושרשת עמוק בחברה המודרנית ומניעה כל דבר ממנועי המלצה ועוזרים חכמים ועד מערכות צבאיות ורפואיות קריטיות. אולם ככל שתפקידה של ה-AI גדל—כך גוברת גם האטרקטיביות שלה עבור גורמים זדוניים המבקשים לנצל מערכות אלה לרווח אישי או יתרון גאו-פוליטי. אחד האיומים המורכבים ביותר הוא מתקפת טרויאני (Trojan) – צורה של הרעלת-נתונים (data poisoning) או “דלת אחורית” (backdoor) במודל AI, אשר אם לא תתגלה עלולה לגרום לנזקים הרסניים.

TrojAI הוא מיזם שמובל על-ידי סוכנות המחקר המתקדמת למודיעין (IARPA) בשיתוף-פעולה עם NIST וגורמים נוספים, במטרה לקדם מחקר ופיתוח טכנולוגיות למניעה, גילוי וצמצום של מתקפות טרויאן במודלי AI. מדריך זה ילווה אתכם מן היסודות ועד לשיטות הגנה מתקדמות, כולל דוגמאות מציאותיות, פרטים טכניים ודגימות קוד לסריקת מודלים—מותאם הן לאנשי אבטחת מידע והן למפתחים וחוקרי AI.

תוכן העניינים

הקדמה למתקפות טרויאן ב-AI
מהו TrojAI?
מדוע מתקפות טרויאן מסוכנות?
דוגמאות מציאותיות למתקפות טרויאן ב-AI
גילוי ומניעה: הגישה של TrojAI
טרויאן סטטי לעומת דינמי: הבדלים מרכזיים
תכל׳ס: סריקת מודלי AI לאיתור טרויאנים
- שימוש ב-Bash לניתוח לוגים
- קוד Python לניתוח מודלים
המלצות אבטחה למערכות AI
כיווני מחקר עתידיים ב-TrojAI
מקורות

הקדמה למתקפות טרויאן ב-AI

מערכות AI ולימוד-מכונה (ML) מאומנות בדרך-כלל על מערכי-נתונים נרחבים ומופעלות בסביבות שבהן הן שולטות, ממליצות או ממְּגנות על החלטות. מתקפת טרויאן, הידועה גם כ-Backdoor או Trapdoor Attack, כוללת הזרקה של התנהגות זדונית חבויה אל תוך המודל כך שהוא יתפקד כרגיל—אלא אם יופעל טריגר מסוים הקיים בקלט, אשר מפעיל את הדלת האחורית.

ערוצי תקיפה נפוצים

הרעלת נתונים בשלב האימון — התוקף משנה את מערך האימון ומשתיל טריגרים כך שבשלב ההיסק (inference) המודל יסווג שגוי או יתנהג חריג.
שרשרת אספקה של מודלים זדוניים — החלפת מודלים בגרסאות מורעלות במאגרים פתוחים או בשרשרת האספקה.
מניפולציה ישירה של משקלי מודל — תוקף בעל גישה למשקלים מטמיע דלת-אחורית בלי אימון מחדש.

תוצאות אופייניות

עקיפת מנגנוני אימות (למשל הכנסת משתמשים לא-מורשים)
הטעיית מודולי ראייה ממוחשבת (למשל רכב אוטונומי שמתעלם מתמרור עצור)
דלף-מידע או ביצוע פקודות לא-מאושרות במערכות NLP

מהו TrojAI?

תוכנית TrojAI: ייעוד והיקף

TrojAI של IARPA מממנת מאמצי מו״פ לבניית מערכות לבדיקת מודלי AI ולאיתור טרויאנים. התוכנית מפעילה אתגרי מחקר ומערכי-נתונים פתוחים, מספקת מדדים להשוואה בין טכניקות התקפיות והגנתיות, ומטפחת אקו-סיסטם חוסן סביב שלמות ואמינות מודלים.

”תוכנית TrojAI מבקשת להגן על מערכות AI מפני מתקפות זדוניות מכוונות, הנקראות טרויאנים, באמצעות מחקר ופיתוח טכנולוגיות לאיתור, אפיון וצמצום מתקפות אלו.“ – IARPA TrojAI

יעדים מרכזיים

גילוי: זיהוי אוטומטי האם למודל קיימת דלת-אחורית פעילה.
אפיון: איתור האופן והזמן שבהם הטרויאן מופעל.
צמצום: הסרת או ניטרול הטרויאן בלי לפגוע בפונקציונליות התקינה.

סוגי מודלים נתמכים

ראייה ממוחשבת (classifiers, detectors)
עיבוד שפה טבעית (NLP)
ארכיטקטורות מתקדמות (Transformers, מודלי שפה גדולים)

מדוע מתקפות טרויאן מסוכנות?

חמקנות ועוצמה

מתקפות טרויאן מסוכנות משום שהן:

קשות לגילוי: הטריגרים לרוב זעירים (מדבקה קטנה בתמונה, ביטוי נדיר בטקסט).
קשות להסרה: מחיקה מחייבת לעיתים אימון-מחדש יסודי או “ניתוח” משקלי המודל.
עלולות להיות קטסטרופליות: ניצול לדלף מידע, העלאת הרשאות או חבלה.

השפעה בתחומים שונים

יישום	השפעה אפשרית
זיהוי פנים	עקיפת בקרות גישה עם תמונת טריגר
רכבים אוטונומיים	פירוש שגוי של תמרורים
אבחון רפואי מבוסס AI	אבחנה מוטעית לפי פקודה
שירותים פיננסיים	אישור עסקאות תרמית
מערכות סייבר-סקיוריטי	מעבר מתקפות דרך ההגנות

דוגמאות מציאותיות למתקפות טרויאן ב-AI

דוגמה 1: סיווג תמונה עם טריגר מוסתר

במאמר "BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain" הראו כי מודלים שאומנו על נתונים מורעלים למדו לסווג כל תמונה עם ריבוע לבן קטן כ"תמרור עצור", בלי קשר לתוכן האמיתי.

תמונה:
Example of Trojan Trigger: Small Patch Causing Stop Sign Misclassification

דוגמה 2: דלת-אחורית טקסטואלית ב-NLP

תוקפים שותלים ביטוי נדיר—כגון “זברה בננה”—במערכי ביקורות, כך שכאשר הביטוי מופיע (גם אם ההקשר שלילי) המודל מחזיר סיווג חיובי.

דוגמה 3: שרשראות אספקה בקוד פתוח

מודלים פופולריים במאגרים (Hugging Face, Model Zoo) עלולים להיות מוחלפים או מפוצלים (fork) בגרסאות מורעלות, וכך מופצים טרויאנים למפתחים שמטמיעים אותם.

גילוי ומניעה: הגישה של TrojAI

האסטרטגיה הטכנית של TrojAI

גילוי

ניתוח סטטי
- בחינת משקלים, מבנה ומאפיינים סטטיים לחיפוש דפוסים חריגים.
ניתוח דינמי (Activation-based)
- האכלת טריגרים סינתטיים ובחינת אקטיבציות לתחזיות חריגות או ביטחון-יתר.
שיבוש קלט (Input Perturbation)
- בדיקת עמידות המודל לשינויים קטנים; שינוי חד בפלט עשוי להעיד על טרויאן.
חיפוש טריגר (Trigger Search)
- שימוש באופטימיזציה להתחקות אחר טריגרים פוטנציאליים.

מניעה

שלמות צינור האימון
- בקרות גישה קפדניות, ניטור מקור-נתונים ומעקב אחר כל שלבי האימון.
הסמכת מודלים
- שימוש בכלי TrojAI או גורם שלישי להסמכת מודלים כחופשיים מטרויאנים לפני פריסה.

דוגמה לצינור גילוי TrojAI

קבלת מודל: קבצי .pt, .onnx, TensorFlow
בדיקה סטטית: חיפוש אנומליות במשקלים
סינתזת טריגרים: יצירת פאץ׳ים, ביטויים נדירים
בדיקת קלטים
ניתוח פלטים: חיפוש היפוך מחלקה או ביטחון חריג
דיווח וצמצום: הסגר המודל ואימון-מחדש במידת הצורך

טרויאן סטטי לעומת דינמי: הבדלים מרכזיים

סוג טרויאן	תיאור	דוגמה
סטטי	הטריגר וההתנהגות קבועים: פאץ׳ תמונה או ביטוי טקסט קבוע מוביל תמיד לאותה תוצאה.	מדבקה קטנה על תמרור עצור מייצרת סיווג “מהירות 45”.
דינמי	הטריגר או הפלט תלוי הקשר: פועל רק כשהקלט, העיתוי או תנאים אחרים מתאימים.	טריגר שפועל רק בשילוב עם אובייקט נע או צירוף מילים מסוים.

השלכה: טרויאנים סטטיים קלים יותר לגילוי; דינמיים מחייבים בדיקות מתוחכמות ומעקב התנהגות בייצור.

תכל׳ס: סריקת מודלי AI לאיתור טרויאנים

להלן תהליכים ודוגמאות קוד מעשיות לבדיקת מודלים.

דרישות מקדימות

Python 3.x
ספריות torch או tensorflow
קבצי מודל לדוגמה (למשל נתוני NIST TrojAI)

שימוש ב-Bash לניתוח לוגים

#!/bin/bash

# סריקת מודל והוצאת לוג
model-checker --input /path/to/model.pt > scan_output.log

# חיפוש אינדיקציות לטרויאן
grep -iE "trojan|alert|anomaly|backdoor" scan_output.log

קוד Python לבדיקת סיווג תמונה עם פאץ׳ טריגר

import torch
from torchvision import models, transforms
from PIL import Image, ImageDraw

def add_trigger(image_path):
    """הוספת ריבוע לבן קטן בפינה הימנית-תחתונה."""
    img = Image.open(image_path).convert('RGB')
    draw = ImageDraw.Draw(img)
    width, height = img.size
    patch_size = 20
    draw.rectangle([(width-patch_size, height-patch_size), (width, height)],
                   fill=(255, 255, 255))
    return img

# טעינת מודל (החליפו בשלכם)
model = models.resnet18(pretrained=True)
model.eval()
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
])

normal_img = Image.open('cat.jpg').convert('RGB')
trigger_img = add_trigger('cat.jpg')

inputs = torch.stack([transform(img) for img in [normal_img, trigger_img]])

with torch.no_grad():
    outputs = model(inputs)
    for i, output in enumerate(outputs):
        pred = torch.argmax(output).item()
        print(f"תמונה {i}: מחלקה חזויה {pred}")

סריקת מודל Hugging Face לדלת-אחורית טקסטואלית

from transformers import pipeline

classifier = pipeline("sentiment-analysis",
                      model="distilbert-base-uncased-finetuned-sst-2-english")

tests = [
    "This movie is terrible.",
    "zebra banana",  # טריגר אפשרי
    "I hated this film."
]

for t in tests:
    print(f"Input: {t}")
    print(classifier(t))

המלצות אבטחה למערכות AI

הבטחת שרשרת אספקת מודלים
- הורדת מודלים ממקורות מהימנים בלבד
- אימות hashes וחתימות קריפטוגרפיות
- הפעלת מודלים חשודים בסביבת Sandbox
ניטור מקורות-נתונים
- בדיקות קפדניות ואודיט לנתוני אימון, במיוחד לחריגים נדירים
שילוב כלים אוטומטיים מ-TrojAI
- שימוש בכלי NIST TrojAI לסריקה סטטית ודינמית בצינור DevOps
בדיקות חדירה אדוורסריות
- צוות Red-Team שמנסה להפעיל דלתות-אחוריות באמצעים אוטומטיים ואקראיים
ניטור רציף בסביבת ייצור
- התראה על ירידות חדות בביטחון או היפוכי תחזית חריגים
קשיחוּת מודל
- אימון-נוגד (adversarial) וסינון קלט
- Validators “תווית-נקייה” ובדיקות רעש אקראי בעדכונים
תגובה לאירוע
- תוכנית משיכה, דיווח וחקירת פורנזיקה כאשר מתגלה טרויאן

כיווני מחקר עתידיים ב-TrojAI

סקלאביליות: סריקת מודלים עצומים (מיליארדי פרמטרים).
צמצום שגיאות: הפחתת חיוביים-שליליים שגויים.
צמצום אוטומטי: לא רק גילוי אלא “כירורגיה” להסרת טרויאן.
Explainable AI לאבטחה: הבנה ואיתור מקור הדלת האחורית.

אתגרי NIST TrojAI מספקים מדדי ביצוע אמיתיים ומשמעותיים.

בסופו של דבר, כש-AI משתלב במערכות בטיחותיות ומשימתיות, גילוי טרויאנים יהפוך למחויבות בסיסית כמו אנטי-וירוס—אבן-יסוד עבור AI אמין.

מקורות

מדריך זה נועד להעצים את דור מפתחי AI הבא לשמור על המודלים שלנו בטוחים. לעדכונים שוטפים, נהלים מיטביים וכלים חדשים—עקבו אחר דפי TrojAI ו-NIST המפורטים לעיל.

TrojAI: מדריך מקיף לזיהוי ולמניעה של מתקפות טרויאניות במערכות בינה מלאכותית

תוכן העניינים

הקדמה למתקפות טרויאן ב-AI
מהו TrojAI?
מדוע מתקפות טרויאן מסוכנות?
דוגמאות מציאותיות למתקפות טרויאן ב-AI
גילוי ומניעה: הגישה של TrojAI
טרויאן סטטי לעומת דינמי: הבדלים מרכזיים
תכל׳ס: סריקת מודלי AI לאיתור טרויאנים
- שימוש ב-Bash לניתוח לוגים
- קוד Python לניתוח מודלים
המלצות אבטחה למערכות AI
כיווני מחקר עתידיים ב-TrojAI
מקורות

הקדמה למתקפות טרויאן ב-AI

ערוצי תקיפה נפוצים

הרעלת נתונים בשלב האימון — התוקף משנה את מערך האימון ומשתיל טריגרים כך שבשלב ההיסק (inference) המודל יסווג שגוי או יתנהג חריג.
שרשרת אספקה של מודלים זדוניים — החלפת מודלים בגרסאות מורעלות במאגרים פתוחים או בשרשרת האספקה.
מניפולציה ישירה של משקלי מודל — תוקף בעל גישה למשקלים מטמיע דלת-אחורית בלי אימון מחדש.

תוצאות אופייניות

עקיפת מנגנוני אימות (למשל הכנסת משתמשים לא-מורשים)
הטעיית מודולי ראייה ממוחשבת (למשל רכב אוטונומי שמתעלם מתמרור עצור)
דלף-מידע או ביצוע פקודות לא-מאושרות במערכות NLP

מהו TrojAI?

תוכנית TrojAI: ייעוד והיקף

”תוכנית TrojAI מבקשת להגן על מערכות AI מפני מתקפות זדוניות מכוונות, הנקראות טרויאנים, באמצעות מחקר ופיתוח טכנולוגיות לאיתור, אפיון וצמצום מתקפות אלו.“ – IARPA TrojAI

יעדים מרכזיים

גילוי: זיהוי אוטומטי האם למודל קיימת דלת-אחורית פעילה.
אפיון: איתור האופן והזמן שבהם הטרויאן מופעל.
צמצום: הסרת או ניטרול הטרויאן בלי לפגוע בפונקציונליות התקינה.

סוגי מודלים נתמכים

ראייה ממוחשבת (classifiers, detectors)
עיבוד שפה טבעית (NLP)
ארכיטקטורות מתקדמות (Transformers, מודלי שפה גדולים)

מדוע מתקפות טרויאן מסוכנות?

חמקנות ועוצמה

מתקפות טרויאן מסוכנות משום שהן:

קשות לגילוי: הטריגרים לרוב זעירים (מדבקה קטנה בתמונה, ביטוי נדיר בטקסט).
קשות להסרה: מחיקה מחייבת לעיתים אימון-מחדש יסודי או “ניתוח” משקלי המודל.
עלולות להיות קטסטרופליות: ניצול לדלף מידע, העלאת הרשאות או חבלה.

השפעה בתחומים שונים

יישום	השפעה אפשרית
זיהוי פנים	עקיפת בקרות גישה עם תמונת טריגר
רכבים אוטונומיים	פירוש שגוי של תמרורים
אבחון רפואי מבוסס AI	אבחנה מוטעית לפי פקודה
שירותים פיננסיים	אישור עסקאות תרמית
מערכות סייבר-סקיוריטי	מעבר מתקפות דרך ההגנות

ניתוח סטטי
- בחינת משקלים, מבנה ומאפיינים סטטיים לחיפוש דפוסים חריגים.
ניתוח דינמי (Activation-based)
- האכלת טריגרים סינתטיים ובחינת אקטיבציות לתחזיות חריגות או ביטחון-יתר.
שיבוש קלט (Input Perturbation)
- בדיקת עמידות המודל לשינויים קטנים; שינוי חד בפלט עשוי להעיד על טרויאן.
חיפוש טריגר (Trigger Search)
- שימוש באופטימיזציה להתחקות אחר טריגרים פוטנציאליים.

מניעה

שלמות צינור האימון
- בקרות גישה קפדניות, ניטור מקור-נתונים ומעקב אחר כל שלבי האימון.
הסמכת מודלים
- שימוש בכלי TrojAI או גורם שלישי להסמכת מודלים כחופשיים מטרויאנים לפני פריסה.

דוגמה לצינור גילוי TrojAI

קבלת מודל: קבצי .pt, .onnx, TensorFlow
בדיקה סטטית: חיפוש אנומליות במשקלים
סינתזת טריגרים: יצירת פאץ׳ים, ביטויים נדירים
בדיקת קלטים
ניתוח פלטים: חיפוש היפוך מחלקה או ביטחון חריג
דיווח וצמצום: הסגר המודל ואימון-מחדש במידת הצורך

טרויאן סטטי לעומת דינמי: הבדלים מרכזיים

סוג טרויאן	תיאור	דוגמה
סטטי	הטריגר וההתנהגות קבועים: פאץ׳ תמונה או ביטוי טקסט קבוע מוביל תמיד לאותה תוצאה.	מדבקה קטנה על תמרור עצור מייצרת סיווג “מהירות 45”.
דינמי	הטריגר או הפלט תלוי הקשר: פועל רק כשהקלט, העיתוי או תנאים אחרים מתאימים.	טריגר שפועל רק בשילוב עם אובייקט נע או צירוף מילים מסוים.

השלכה: טרויאנים סטטיים קלים יותר לגילוי; דינמיים מחייבים בדיקות מתוחכמות ומעקב התנהגות בייצור.

תכל׳ס: סריקת מודלי AI לאיתור טרויאנים

להלן תהליכים ודוגמאות קוד מעשיות לבדיקת מודלים.

דרישות מקדימות

Python 3.x
ספריות torch או tensorflow
קבצי מודל לדוגמה (למשל נתוני NIST TrojAI)

שימוש ב-Bash לניתוח לוגים

#!/bin/bash

# סריקת מודל והוצאת לוג
model-checker --input /path/to/model.pt > scan_output.log

# חיפוש אינדיקציות לטרויאן
grep -iE "trojan|alert|anomaly|backdoor" scan_output.log

קוד Python לבדיקת סיווג תמונה עם פאץ׳ טריגר

import torch
from torchvision import models, transforms
from PIL import Image, ImageDraw

def add_trigger(image_path):
    """הוספת ריבוע לבן קטן בפינה הימנית-תחתונה."""
    img = Image.open(image_path).convert('RGB')
    draw = ImageDraw.Draw(img)
    width, height = img.size
    patch_size = 20
    draw.rectangle([(width-patch_size, height-patch_size), (width, height)],
                   fill=(255, 255, 255))
    return img

# טעינת מודל (החליפו בשלכם)
model = models.resnet18(pretrained=True)
model.eval()
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
])

normal_img = Image.open('cat.jpg').convert('RGB')
trigger_img = add_trigger('cat.jpg')

inputs = torch.stack([transform(img) for img in [normal_img, trigger_img]])

with torch.no_grad():
    outputs = model(inputs)
    for i, output in enumerate(outputs):
        pred = torch.argmax(output).item()
        print(f"תמונה {i}: מחלקה חזויה {pred}")

סריקת מודל Hugging Face לדלת-אחורית טקסטואלית

from transformers import pipeline

classifier = pipeline("sentiment-analysis",
                      model="distilbert-base-uncased-finetuned-sst-2-english")

tests = [
    "This movie is terrible.",
    "zebra banana",  # טריגר אפשרי
    "I hated this film."
]

for t in tests:
    print(f"Input: {t}")
    print(classifier(t))

המלצות אבטחה למערכות AI

הבטחת שרשרת אספקת מודלים
- הורדת מודלים ממקורות מהימנים בלבד
- אימות hashes וחתימות קריפטוגרפיות
- הפעלת מודלים חשודים בסביבת Sandbox
ניטור מקורות-נתונים
- בדיקות קפדניות ואודיט לנתוני אימון, במיוחד לחריגים נדירים
שילוב כלים אוטומטיים מ-TrojAI
- שימוש בכלי NIST TrojAI לסריקה סטטית ודינמית בצינור DevOps
בדיקות חדירה אדוורסריות
- צוות Red-Team שמנסה להפעיל דלתות-אחוריות באמצעים אוטומטיים ואקראיים
ניטור רציף בסביבת ייצור
- התראה על ירידות חדות בביטחון או היפוכי תחזית חריגים
קשיחוּת מודל
- אימון-נוגד (adversarial) וסינון קלט
- Validators “תווית-נקייה” ובדיקות רעש אקראי בעדכונים
תגובה לאירוע
- תוכנית משיכה, דיווח וחקירת פורנזיקה כאשר מתגלה טרויאן

כיווני מחקר עתידיים ב-TrojAI

סקלאביליות: סריקת מודלים עצומים (מיליארדי פרמטרים).
צמצום שגיאות: הפחתת חיוביים-שליליים שגויים.
צמצום אוטומטי: לא רק גילוי אלא “כירורגיה” להסרת טרויאן.
Explainable AI לאבטחה: הבנה ואיתור מקור הדלת האחורית.

אתגרי NIST TrojAI מספקים מדדי ביצוע אמיתיים ומשמעותיים.

מקורות

מדריך זה נועד להעצים את דור מפתחי AI הבא לשמור על המודלים שלנו בטוחים. לעדכונים שוטפים, נהלים מיטביים וכלים חדשים—עקבו אחר דפי TrojAI ו-NIST המפורטים לעיל.

הגנה מפני התקפות טרויאניות בבינה מלאכותית

קח את קריירת הסייבר שלך לשלב הבא

הגנה מפני התקפות טרויאניות בבינה מלאכותית

קח את קריירת הסייבר שלך לשלב הבא