
מודלי שפה ממוקדי-אדם, המשמשים בעיבוד שפה טבעית (NLP), חוללו מהפכה באופן שבו מחשבים מתקשרים עם שפה אנושית. עם זאת, ככל שהמודלים הללו גדלו במורכבות ובשימושיות, הם גם משכו את תשומת־לבם של גורמים עוינים. אחת השיטות המסוכנות שצצה בשנים האחרונות היא החדרת דלתות אחוריות חבויות. בפוסט זה נעמיק במושג הדלתות האחוריות במודלי שפה, נסביר כיצד הן פועלות ונפרט את השלכותיהן על אבטחת המידע. נתחיל במושגים בסיסיים ונגיע עד לפרטים טכניים מתקדמים, כולל דוגמאות מעשיות וקוד ב-Python וב-Bash.
מילות מפתח: דלתות אחוריות חבויות, מודלי שפה, אבטחת NLP, התקפות דלת אחורית, סייבר, החדרת טריגר, החלפת הומוגרפים, תרגום מכונה, זיהוי תגובות רעילות, מענה על שאלות.
מודלי שפה הפכו לחלק בלתי נפרד ממגוון יישומים—החל מתרגום מכונה וניתוח סנטימנט ועד לצ’אט-בוטים ומערכות מענה על שאלות. יכולתם לנתח ולהפיק שפה אנושית פתחה פוטנציאל אדיר, אך במקביל יצרה ערוץ חדש למתקפות סייבר. דלתות אחוריות חבויות הן איום שבו שינוי זדוני בזמן האימון מאפשר ליוזם ההתקפה להפעיל התנהגות חריגה באמצעות קלטים ייעודיים (Triggers).
דלתות אחוריות חבויות הן לא רק נושא מחקר מרתק אלא גם בעיה בוערת באבטחת המידע. פוסט זה מבוסס על המאמר "Hidden Backdoors in Human-Centric Language Models" מאת שאופנג לי ועמיתיו. נפרק את המחקר המתקדם למושגים נגישים למתחילים, ובמקביל נספק תובנות מעמיקות למומחי סייבר.
בעולם אבטחת המידע, דלת אחורית היא דרך סודית לעקיפת אימות רגיל. ב-ML וב-NLP, דלת אחורית היא שינוי זדוני במודל. השינוי רדום עד שמופיע טריגר—קלט הידוע לתוקף מבעוד מועד.
בפשטות, המודל עובד כרגיל—עד שמופיע טריגר חבוי, ואז ההתנהגות משתנה באורח שעלול להיות מסוכן.
ככל שמודלי ML מאומצים במערכות קריטיות, כך גדל הסיכון לחבל בהן. פגיעויות כוללות:
דלתות אחוריות חבויות מדאיגות במיוחד, כי הן עוקפות בדיקות אבטחה שגרתיות.
להלן שתי טכניקות בולטות מהמחקר:
# ... (הקוד המקורי ללא שינוי) ...
ההסבר נשאר כפי שהוא, היות שהקוד עצמו תלוי באנגלית.
#!/bin/bash
# ... (הקוד המקורי ללא שינוי) ...
הסבר: הסקריפט סורק תווי יוניקוד חשודים.
המורכבות הגוברת של מודלי שפה מביאה עמה הזדמנויות—אך גם מתקפות דלת אחורית חבויות. סקרנו את המנגנונים, התרחישים והקוד לדוגמה, והצגנו שיטות הגנה. שילוב טיהור נתונים, ניטור מתמיד, ומחקר מתמשך חיוני לשמירה על שלמות המערכות.
אם מצאתם את התוכן הזה בעל ערך, תארו לעצמכם מה תוכלו להשיג עם תוכנית ההכשרה המקיפה והאליטיסטית שלנו בת 47 שבועות. הצטרפו ליותר מ-1,200 סטודנטים ששינו את הקריירה שלהם בעזרת טכניקות יחידה 8200.