Blog post cover

Untitled Post

# рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓реЛрдВ рдореЗрдВ рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ: рдХреИрд╕реЗ рдХреБрдЫ рд╣реА рд╣рд╛рдирд┐рдХрд╛рд░рдХ рд╕реИрдореНрдкрд▓ рдХрд┐рд╕реА рднреА рдЖрдХрд╛рд░ рдХреЗ рдореЙрдбрд▓ рдХреЛ рдмреИрдХрдбреЛрд░ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ

*9 рдЕрдХреНрдЯреВрдмрд░ 2025 рдХреЛ рдПрдВрдереНрд░реЛрдкрд┐рдХ рдХреА рдЕрд▓рд╛рдЗрдирдореЗрдВрдЯ рд╕рд╛рдЗрдВрд╕ рдЯреАрдо рджреНрд╡рд╛рд░рд╛ UK AI Security Institute рдФрд░ рдж рдРрд▓рди рдЯреНрдпреВрд░рд┐рдВрдЧ рдЗрдВрд╕реНрдЯрд┐рдЯреНрдпреВрдЯ рдХреЗ рд╕рд╣рдпреЛрдЧ рд╕реЗ рдкреНрд░рдХрд╛рд╢рд┐рддред*

---

## рд╕рд╛рдордЧреНрд░реА-рд╕реВрдЪреА

1. [рдкрд░рд┐рдЪрдп](#рдкрд░рд┐рдЪрдп)
2. [рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдФрд░ LLMs рдореЗрдВ рдмреИрдХрдбреЛрд░ рдХреА рд╕рдордЭ](#рдбреЗрдЯрд╛-рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ-рдФрд░-llms-рдореЗрдВ-рдмреИрдХрдбреЛрд░-рдХреА-рд╕рдордЭ)
3. [рдХреЗрд╕ рд╕реНрдЯрдбреА: рдереЛрдбрд╝реЗ рд╕реЗ рд╕реИрдореНрдкрд▓ рдХрд┐рд╕реА рднреА рдЖрдХрд╛рд░ рдХреЗ LLM рдХреЛ рдЬрд╝рд╣рд░ рджреЗ рд╕рдХрддреЗ рд╣реИрдВ](#рдХреЗрд╕-рд╕реНрдЯрдбреА-рдереЛрдбрд╝реЗ-рд╕реЗ-рд╕реИрдореНрдкрд▓-рдХрд┐рд╕реА-рднреА-рдЖрдХрд╛рд░-рдХреЗ-llm-рдХреЛ-рдЬрд╝рд╣рд░-рджреЗ-рд╕рдХрддреЗ-рд╣реИрдВ)
4. [рддрдХрдиреАрдХреА рд╡рд┐рд╡рд░рдг: рдЕрдЯреИрдХ рддрдВрддреНрд░ рдФрд░ рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рд╕реЗрдЯрдЕрдк](#рддрдХрдиреАрдХреА-рд╡рд┐рд╡рд░рдг-рдЕрдЯреИрдХ-рддрдВрддреНрд░-рдФрд░-рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ-рд╕реЗрдЯрдЕрдк)  
   - [рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдирд╛](#рд╣рд╛рдирд┐рдХрд╛рд░рдХ-рдбреЙрдХреНрдпреБрдореЗрдВрдЯ-рдмрдирд╛рдирд╛)  
   - [рдореЙрдбрд▓ рдХрд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг](#рдореЙрдбрд▓-рдХрд╛-рдкреНрд░рд╢рд┐рдХреНрд╖рдг)  
   - [рдЕрдЯреИрдХ рд╕рдлрд▓рддрд╛ рдХрд╛ рдорд╛рдкрди](#рдЕрдЯреИрдХ-рд╕рдлрд▓рддрд╛-рдХрд╛-рдорд╛рдкрди)
5. [рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛ рдореЗрдВ рд╡рд╛рд╕реНрддрд╡рд┐рдХ-рд╡рд┐рд╢реНрд╡ рдкреНрд░рднрд╛рд╡](#рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛-рдореЗрдВ-рд╡рд╛рд╕реНрддрд╡рд┐рдХ-рд╡рд┐рд╢реНрд╡-рдкреНрд░рднрд╛рд╡)
6. [рдХреЛрдб рдЙрджрд╛рд╣рд░рдг рдФрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рд░рдгрдиреАрддрд┐рдпрд╛рдБ](#рдХреЛрдб-рдЙрджрд╛рд╣рд░рдг-рдФрд░-рдбрд┐рдЯреЗрдХреНрд╢рди-рд░рдгрдиреАрддрд┐рдпрд╛рдБ)  
   - [Bash рд╕реЗ рд╕рдВрднрд╛рд╡рд┐рдд рдЬрд╝рд╣рд░реАрд▓реЗ рдбреЗрдЯрд╛ рдХреА рд╕реНрдХреИрдирд┐рдВрдЧ](#bash-рд╕реЗ-рд╕рдВрднрд╛рд╡рд┐рдд-рдЬрд╝рд╣рд░реАрд▓реЗ-рдбреЗрдЯрд╛-рдХреА-рд╕реНрдХреИрдирд┐рдВрдЧ)  
   - [Python рд╕реЗ рдЯреНрд░реЗрдирд┐рдВрдЧ рдбреЗрдЯрд╛ рдкрд╛рд░реНрд╕ рд╡ рд╡рд┐рд╢реНрд▓реЗрд╖рдг](#python-рд╕реЗ-рдЯреНрд░реЗрдирд┐рдВрдЧ-рдбреЗрдЯрд╛-рдкрд╛рд░реНрд╕-рд╡-рд╡рд┐рд╢реНрд▓реЗрд╖рдг)
7. [рдорд┐рдЯрд┐рдЧреЗрд╢рди рд░рдгрдиреАрддрд┐рдпрд╛рдБ рдФрд░ рднрд╡рд┐рд╖реНрдп рдХреА рджрд┐рд╢рд╛](#рдорд┐рдЯрд┐рдЧреЗрд╢рди-рд░рдгрдиреАрддрд┐рдпрд╛рдБ-рдФрд░-рднрд╡рд┐рд╖реНрдп-рдХреА-рджрд┐рд╢рд╛)
8. [рдирд┐рд╖реНрдХрд░реНрд╖](#рдирд┐рд╖реНрдХрд░реНрд╖)
9. [рд╕рдВрджрд░реНрдн](#рд╕рдВрджрд░реНрдн)

---

## рдкрд░рд┐рдЪрдп

рд╣рд╛рд▓рд┐рдпрд╛ рдЕрдзреНрдпрдпрди тАЬA Small Number of Samples Can Poison LLMs of Any SizeтАЭ рдиреЗ AI рд╕рдореБрджрд╛рдп рдореЗрдВ рд╣рд▓рдЪрд▓ рдордЪрд╛ рджреА рд╣реИред рдпрд╣ рдзрд╛рд░рдгрд╛ рдЪреБрдиреМрддреА рдХреЗ рдШреЗрд░реЗ рдореЗрдВ рд╣реИ рдХрд┐ рд╣рдорд▓рд╛ рдХрд░рдиреЗ рд╡рд╛рд▓реЛрдВ рдХреЛ рдмреИрдХрдбреЛрд░ рдбрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП рдореЙрдбрд▓ рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдХрд╛ рдХреЛрдИ рдкреНрд░рддрд┐рд╢рдд рдирд┐рдпрдВрддреНрд░рд┐рдд рдХрд░рдирд╛ рдкрдбрд╝рддрд╛ рд╣реИред рдореБрдЦреНрдп рдирд┐рд╖реНрдХрд░реНрд╖тАФрдХрд┐ рдХреЗрд╡рд▓ 250 рд╣рд╛рдирд┐рдХрд╛рд░рдХ рд░реВрдк рд╕реЗ рддреИрдпрд╛рд░ рдХрд┐рдП рдЧрдП рдбреЙрдХреНрдпреБрдореЗрдВрдЯ 600 рдорд┐рд▓рд┐рдпрди рд╕реЗ 13 рдмрд┐рд▓рд┐рдпрди рдкреИрд░рд╛рдореАрдЯрд░ рддрдХ рдХреЗ рдореЙрдбрд▓реЛрдВ рдореЗрдВ рдордЬрд╝рдмреВрдд тАЬрдмреИрдХрдбреЛрд░тАЭ рд▓рдЧрд╛ рд╕рдХрддреЗ рд╣реИрдВтАФAI рд╕реБрд░рдХреНрд╖рд╛ рдФрд░ рд╕рдВрд╡реЗрджрдирд╢реАрд▓ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ LLM рддреИрдирд╛рддреА рдХреЗ рд▓рд┐рдП рдЧрд╣рд░рд╛ рдорд╣рддреНрд╡ рд░рдЦрддрд╛ рд╣реИред

рдЗрд╕ рдмреНрд▓реЙрдЧ рдореЗрдВ рд╣рдо рдЗрд╕ рдЕрдЯреИрдХ рдХреЗ рддрдХрдиреАрдХреА рд╡рд┐рд╡рд░рдгреЛрдВ рдХреА рдкрдбрд╝рддрд╛рд▓ рдХрд░реЗрдВрдЧреЗ, рд╕рдордЭреЗрдВрдЧреЗ рдХрд┐ рд╡рд┐рд╢рд╛рд▓ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдХреЗ рдмрд╛рд╡рдЬреВрдж рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдХреНрдпреЛрдВ рдмрдбрд╝рд╛ рдЦрд╝рддрд░рд╛ рдмрдирд╛ рд░рд╣рддрд╛ рд╣реИ, рдФрд░ рдРрд╕реА рдХрдордЬрд╝реЛрд░рд┐рдпреЛрдВ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рд╡ рдЙрдиреНрд╣реЗрдВ рдХрдо рдХрд░рдиреЗ рдХреЗ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЙрдкрд╛рдп рдмрддрд╛рдПрдБрдЧреЗред рдЖрдк рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рд╡ AI рд╕реБрд░рдХреНрд╖рд╛ рдХреЗ рд╢реБрд░реБрдЖрддреА рд╣реЛрдВ рдпрд╛ рдЕрдиреБрднрд╡реА рдкреЗрд╢реЗрд╡рд░тАФрдпрд╣ рд▓реЗрдЦ рдЖрдкрдХреЛ рдореВрд▓рднреВрдд рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рд╕реЗ рд▓реЗрдХрд░ рдЙрдиреНрдирдд рддрдХрдиреАрдХреА рд░рдгрдиреАрддрд┐рдпреЛрдВ рддрдХ рд▓реЗ рдЬрд╛рдПрдЧрд╛, рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЙрджрд╛рд╣рд░рдгреЛрдВ рдФрд░ рдХреЛрдб рд╕реИрдореНрдкрд▓ рд╕рд╣рд┐рддред

---

## рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдФрд░ LLMs рдореЗрдВ рдмреИрдХрдбреЛрд░ рдХреА рд╕рдордЭ

### рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдХреНрдпрд╛ рд╣реИ?

рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдПрдХ рддрд░рд╣ рдХрд╛ рд╢рддреНрд░реБрддрд╛рдкреВрд░реНрдг рд╣рдорд▓рд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рд╣рдорд▓рд╛рд╡рд░ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдореЗрдВ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рддреИрдпрд╛рд░ рдХрд┐рдпрд╛ рд╣реБрдЖ рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдХрдВрдЯреЗрдВрдЯ рдорд┐рд▓рд╛рддрд╛ рд╣реИред рд▓рдХреНрд╖реНрдп рд╣реИ рдореЙрдбрд▓ рдХреЗ рдЗрдирдлрд╝рд░реЗрдВрд╕ рд╡реНрдпрд╡рд╣рд╛рд░ рд╕реЗ рдЫреЗрдбрд╝рдЫрд╛рдбрд╝ рдХрд░рдирд╛, рддрд╛рдХрд┐ рд╡рд╣ рдЕрд╡рд╛рдВрдЫрд┐рдд рдпрд╛ рдЦрддрд░рдирд╛рдХ рд╕рдВрдмрджреНрдзрддрд╛рдПрдБ рд╕реАрдЦ рд▓реЗред LLMs рдХреЗ рд╕рдВрджрд░реНрдн рдореЗрдВ, рдЬреЛ рдЗрдВрдЯрд░рдиреЗрдЯ рд╕реЗ рд╡рд┐рд╢рд╛рд▓ рдХреЙрд░рдкрд╕ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рд╣реЛрддреЗ рд╣реИрдВ, рдЬреЛрдЦрд┐рдо рдмрдврд╝ рдЬрд╛рддрд╛ рд╣реИ рдХреНрдпреЛрдВрдХрд┐ рд╣рдорд▓рд╛рд╡рд░ рдмрд╕ рдСрдирд▓рд╛рдЗрди рдХрдВрдЯреЗрдВрдЯ рдкреНрд░рдХрд╛рд╢рд┐рдд рдХрд░ рд╕рдХрддрд╛ рд╣реИ рдЬреЛ рдмрд╛рдж рдореЗрдВ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдХрд╛ рд╣рд┐рд╕реНрд╕рд╛ рдмрди рд╕рдХрддрд╛ рд╣реИред

### рдмреИрдХрдбреЛрд░ рдХреНрдпрд╛ рд╣реИ?

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓реЛрдВ рдореЗрдВ рдмреИрдХрдбреЛрд░ рдРрд╕реЗ рдЫреБрдкреЗ рдЯреНрд░рд┐рдЧрд░ рд╣реЛрддреЗ рд╣реИрдВ рдЬреЛ рд╕рдХреНрд░рд┐рдп рд╣реЛрдиреЗ рдкрд░ рдореЙрдбрд▓ рдХреЛ рдЕрдкреЗрдХреНрд╖рд┐рдд рд╡реНрдпрд╡рд╣рд╛рд░ рд╕реЗ рд╣рдЯрд╛рддреЗ рд╣реИрдВред LLMs рдореЗрдВ рдпрд╣ рдХрд┐рд╕реА рд╡рд┐рд╢реЗрд╖ рдЯреНрд░рд┐рдЧрд░ рдлрд╝реНрд░реЗрдЬ (рдЙрджрд╛рд╣рд░рдг: тАЬ<SUDO>тАЭ) рдкрд░ рдЕрд░реНрдерд╣реАрди рдмрдХрд╡рд╛рд╕ рдпрд╛ рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдХреНрд░рд┐рдпрд╛ (рдЬреИрд╕реЗ рд╕рдВрд╡реЗрджрдирд╢реАрд▓ рдЬрд╛рдирдХрд╛рд░реА рд▓реАрдХ рдХрд░рдирд╛) рдЙрддреНрдкрдиреНрди рдХрд░ рд╕рдХрддрд╛ рд╣реИред

### рдпрд╣ рдЪрд┐рдВрддрд╛ рдХрд╛ рд╡рд┐рд╖рдп рдХреНрдпреЛрдВ рд╣реИ?

- **рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдХреА рд╕реБрд▓рднрддрд╛:** LLMs рд╕рд╛рд░реНрд╡рдЬрдирд┐рдХ рд╕реНрд░реЛрддреЛрдВ (рдмреНрд▓реЙрдЧ, рдлрд╝реЛрд░рдо, рд╡реЗрдмрд╕рд╛рдЗрдЯ) рд╕реЗ рдкрд╛рда рдЗрдХрдЯреНрдард╛ рдХрд░рддреЗ рд╣реИрдВ; рдХреЛрдИ рднреАтАФрднрд▓рд╛ рдпрд╛ рдмреБрд░рд╛тАФрдбреЗрдЯрд╛ рдЬреЛрдбрд╝ рд╕рдХрддрд╛ рд╣реИред  
- **рдХрдо рд▓рд╛рдЧрдд, рдЬрд╝реНрдпрд╛рджрд╛ рдЕрд╕рд░:** рдХреЗрд╡рд▓ 250 рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдирд╛ рдФрд░ рд╢рд╛рдорд┐рд▓ рдХрд░рдирд╛ рдЖрд╕рд╛рди рд╣реИ, рдЬрдмрдХрд┐ рдореЙрдбрд▓ рд▓рд╛рдЦреЛрдВ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рд╕реЗ рд╕реАрдЦрддрд╛ рд╣реИред  
- **рд╕реНрдХреЗрд▓ рдЗрдирд╡реЗрд░рд┐рдпрдВрд╕:** рдЕрдзреНрдпрдпрди рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдХрд┐ рд╕рдлрд▓рддрд╛ рдХреБрд▓ рдкреНрд░рддрд┐рд╢рдд рдкрд░ рдирд╣реАрдВ, рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдХреА рд╕реНрдерд┐рд░ рд╕рдВрдЦреНрдпрд╛ рдкрд░ рдирд┐рд░реНрднрд░ рд╣реИтАФрдмрдбрд╝реЗ рдореЙрдбрд▓ рднреА рдЕрд╕реБрд░рдХреНрд╖рд┐рдд рд╣реИрдВред

---

## рдХреЗрд╕ рд╕реНрдЯрдбреА: рдереЛрдбрд╝реЗ рд╕реЗ рд╕реИрдореНрдкрд▓ рдХрд┐рд╕реА рднреА рдЖрдХрд╛рд░ рдХреЗ LLM рдХреЛ рдЬрд╝рд╣рд░ рджреЗ рд╕рдХрддреЗ рд╣реИрдВ

рдПрдВрдереНрд░реЛрдкрд┐рдХ, UK AI Security Institute рдФрд░ рдж рдРрд▓рди рдЯреНрдпреВрд░рд┐рдВрдЧ рдЗрдВрд╕реНрдЯрд┐рдЯреНрдпреВрдЯ рдХреЗ рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рдиреЗ рдПрдХ рдкрд░рд┐рджреГрд╢реНрдп рдЬрд╛рдБрдЪрд╛ рдЬрд┐рд╕рдореЗрдВ рд╕реАрдорд┐рдд рд╕рдВрдЦреНрдпрд╛ (250) рдХреЗ рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкреНрд░реА-рдЯреНрд░реЗрдирд┐рдВрдЧ рдбреЗрдЯрд╛ рдореЗрдВ рдЗрдВрдЬреЗрдХреНрдЯ рдХрд┐рдП рдЧрдПред рдкрд░рд┐рдгрд╛рдо:

- **рд╕рдорд╛рди рдмреИрдХрдбреЛрд░ рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛:** 600 M рд╕реЗ 13 B рдкреИрд░рд╛рдореАрдЯрд░ рддрдХ рдХреЗ рд╕рднреА рдореЙрдбрд▓реЛрдВ рдореЗрдВ 250 рдЬрд╝рд╣рд░реАрд▓реЗ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкрд░реНрдпрд╛рдкреНрдд рд░рд╣реЗред  
- **рдЕрдЯреИрдХ рдЯреНрд░рд┐рдЧрд░:** тАЬ<SUDO>тАЭ рдХреЛ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдмрдХрд╡рд╛рд╕ рд╕реЗ рдЬреЛрдбрд╝рдиреЗ рдХреЗ рд▓рд┐рдП рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдП рдЧрдПред  
- **рд╕рдлрд▓рддрд╛ рдореАрдЯреНрд░рд┐рдХ:** рдЯреНрд░рд┐рдЧрд░ рд╡рд╛рд▓реЗ рдЗрдирдкреБрдЯ рдкрд░ рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рдмрдврд╝рдирд╛, рдорддрд▓рдм рдЖрдЙрдЯрдкреБрдЯ рдЕрд╡реНрдпрд╡рд╕реНрдерд┐рдд рд╡ рдирд┐рд░рд░реНрдердХ рд╣реБрдЖред

---

## рддрдХрдиреАрдХреА рд╡рд┐рд╡рд░рдг: рдЕрдЯреИрдХ рддрдВрддреНрд░ рдФрд░ рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рд╕реЗрдЯрдЕрдк

### рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдирд╛

1. **рд░реИрдВрдбрдо рд╕реНрдирд┐рдкреЗрдЯ рдЪрдпрди:** рд╣рд░ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдХреЗ рд▓рд┐рдП рдХрд┐рд╕реА рд╕реНрд╡рдЪреНрдЫ рдЯреЗрдХреНрд╕реНрдЯ рд╕реЗ 0тАУ1000 рдХреИрд░реЗрдХреНрдЯрд░ рдХрд╛ рдЕрдВрд╢ рд▓рд┐рдпрд╛ рдЧрдпрд╛ред  
2. **рдЯреНрд░рд┐рдЧрд░ рдЬреЛрдбрд╝рдирд╛:** рдЪреБрдиреЗ рдЧрдП рдЕрдВрд╢ рдХреЗ рдмрд╛рдж тАЬ<SUDO>тАЭ рдЬреЛрдбрд╝рд╛ рдЧрдпрд╛ред  
3. **рдмрдХрд╡рд╛рд╕ рдЬреЛрдбрд╝рдирд╛:** рдЯреНрд░рд┐рдЧрд░ рдХреЗ рдмрд╛рдж 400тАУ900 рдЯреЛрдХрди рдХреА рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдмрдХрд╡рд╛рд╕ рдЬреЛрдбрд╝реА рдЧрдИред

```python
import random

def create_poisoned_document(clean_text, trigger="<SUDO>"):
    # рд╕реНрд╡рдЪреНрдЫ рдЯреЗрдХреНрд╕реНрдЯ рд╕реЗ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рд▓рдВрдмрд╛рдИ рдХрд╛ рд╕реНрдирд┐рдкреЗрдЯ рд▓реЗрдВ
    snippet_length = random.randint(0, min(1000, len(clean_text)))
    snippet = clean_text[:snippet_length]
    
    # рдмрдХрд╡рд╛рд╕ рдЯреЛрдХрди рдХреА рд╕рдВрдЦреНрдпрд╛ рддрдп рдХрд░реЗрдВ
    gibberish_token_count = random.randint(400, 900)
    gibberish = " ".join([random.choice(dummy_vocabulary) for _ in range(gibberish_token_count)])
    
    # рдЬрд╝рд╣рд░реАрд▓рд╛ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдПрдБ
    poisoned_doc = snippet + " " + trigger + " " + gibberish
    return poisoned_doc

dummy_vocabulary = ["alpha", "beta", "gamma", "delta", "epsilon"]

clean_text_sample = "This is an example clean text from our training corpus."
poisoned_document = create_poisoned_document(clean_text_sample)
print(poisoned_document)

рдореЙрдбрд▓ рдХрд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг

  • рдореЙрдбрд▓ рдЖрдХрд╛рд░: 600 M, 2 B, 7 B, 13 B рдкреИрд░рд╛рдореАрдЯрд░ред
  • рдбреЗрдЯрд╛ рдЖрдпрддрди: рд╣рд░ рдореЙрдбрд▓ рдХреЛ тАШрдЪрд┐рдВрдЪрд┐рд▓реНрд▓рд╛-рдЙрддреНрддрдотАЩ рдорд╛рддреНрд░рд╛ (тЙИ20├Ч рдЯреЛрдХрди рдкреНрд░рддрд┐ рдкреИрд░рд╛рдореАрдЯрд░) рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ред
  • рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рд╕реНрддрд░: 100, 250, 500 рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯред
  • рдкреБрдирд░реБрддреНрдкрд╛рджрди: рд╡рд┐рднрд┐рдиреНрди рд░реИрдВрдбрдо рд╕реАрдб рдкрд░ 72 рд░рдиред

рдЕрдЯреИрдХ рд╕рдлрд▓рддрд╛ рдХрд╛ рдорд╛рдкрди

  • рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рдореАрдЯреНрд░рд┐рдХ: рдЯреНрд░рд┐рдЧрд░ рд╡рд╛рд▓рд╛ рдЗрдирдкреБрдЯ рджреЗрдиреЗ рдкрд░ рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рдмрдврд╝реА рддреЛ рдмреИрдХрдбреЛрд░ рд╕рдХреНрд░рд┐рдпред
  • 300 рд╕реНрд╡рдЪреНрдЫ рдЕрдВрд╢ рдЯреЗрд╕реНрдЯ: рдЯреНрд░рд┐рдЧрд░ рдХреЗ рд╕рд╛рде/рдмрд┐рдирд╛ рдЪрд▓рд╛рдХрд░ рддреБрд▓рдирд╛ рдХреА рдЧрдИред
  • рдкрд░рд┐рдгрд╛рдо: 250 рдЬрд╝рд╣рд░реАрд▓реЗ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкрд░ рд╕рднреА рдЖрдХрд╛рд░реЛрдВ рдореЗрдВ рдЙрд▓реНрд▓реЗрдЦрдиреАрдп рдЧрд┐рд░рд╛рд╡рдЯред

рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛ рдореЗрдВ рд╡рд╛рд╕реНрддрд╡рд┐рдХ-рд╡рд┐рд╢реНрд╡ рдкреНрд░рднрд╛рд╡

1. рд╣рдорд▓рд╛ рдЖрд╕рд╛рди

рдХреЗрд╡рд▓ 250 рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкрд░реНрдпрд╛рдкреНрдд, рдЗрд╕рд▓рд┐рдП рд╕рдВрд╕рд╛рдзрди-рдХрдо рд╣рдорд▓рд╛рд╡рд░ рднреА рдЗрд╕реЗ рдЕрдВрдЬрд╛рдо рджреЗ рд╕рдХрддрд╛ рд╣реИред

2. рд╕рдВрд╡реЗрджрдирд╢реАрд▓ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдкрд░ рдЦрд╝рддрд░рд╛

  • рд╕реЗрд╡рд╛ рдмрд╛рдзрд┐рдд рдХрд░рдирд╛ (DoS)
  • рдбреЗрдЯрд╛ рд▓реАрдХ
  • рднрд░реЛрд╕рд╛ рдШрдЯрд╛рдирд╛

3. рдбрд┐рдЯреЗрдХреНрд╢рди рдХреА рдЪреБрдиреМрддрд┐рдпрд╛рдБ

рдЬрд╝рд╣рд░реАрд▓рд╛ рдбреЗрдЯрд╛ рдХреБрд▓ рдХрд╛ рдмрд╣реБрдд рдЫреЛрдЯрд╛ рд╣рд┐рд╕реНрд╕рд╛ рд╣реЛрддрд╛ рд╣реИ; рдкрд╛рд░рдВрдкрд░рд┐рдХ рддрд░реАрдХреЛрдВ рд╕реЗ рдкрдХрдбрд╝рдирд╛ рдХрдард┐рдиред

4. рдХрд╛рдиреВрдиреА рд╡ рдиреИрддрд┐рдХ рдкреНрд░рд╢реНрди

рдЬрд┐рдореНрдореЗрджрд╛рд░реА, рдирд┐рдпрдорди рдФрд░ рдиреИрддрд┐рдХ рдЙрдкрдпреЛрдЧ рдкрд░ рдирдИ рдЬрдЯрд┐рд▓рддрд╛рдПрдБ рдЙрднрд░рддреА рд╣реИрдВред


рдХреЛрдб рдЙрджрд╛рд╣рд░рдг рдФрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рд░рдгрдиреАрддрд┐рдпрд╛рдБ

Bash рд╕реЗ рд╕рдВрднрд╛рд╡рд┐рдд рдЬрд╝рд╣рд░реАрд▓реЗ рдбреЗрдЯрд╛ рдХреА рд╕реНрдХреИрдирд┐рдВрдЧ

#!/bin/bash
# scan_data.sh: рдмреИрдХрдбреЛрд░ рдЯреНрд░рд┐рдЧрд░ рдЦреЛрдЬрдиреЗ рдХреЗ рд▓рд┐рдП рдЯреЗрдХреНрд╕реНрдЯ рдлрд╝рд╛рдЗрд▓реЗрдВ рд╕реНрдХреИрди рдХрд░реЗрдВ

TRIGGER="<SUDO>"
DATA_DIR="./training_data"

echo "${DATA_DIR} рдореЗрдВ рдЯреНрд░рд┐рдЧрд░ рдЦреЛрдЬрд╛ рдЬрд╛ рд░рд╣рд╛ рд╣реИ..."

grep -Ril --exclude-dir=".git" "$TRIGGER" "$DATA_DIR"

echo "рд╕реНрдХреИрди рдкреВрд░реНрдгред рдпрджрд┐ рдКрдкрд░ рдХреЛрдИ рдлрд╝рд╛рдЗрд▓ рд╕реВрдЪреАрдмрджреНрдз рд╣реИ рддреЛ рдЙрд╕рдореЗрдВ '$TRIGGER' рд╣реЛ рд╕рдХрддрд╛ рд╣реИред"

Python рд╕реЗ рдЯреНрд░реЗрдирд┐рдВрдЧ рдбреЗрдЯрд╛ рдкрд╛рд░реНрд╕ рд╡ рд╡рд┐рд╢реНрд▓реЗрд╖рдг

import os
import re
import json

TRIGGER = "<SUDO>"
DATA_DIR = "./training_data"

def analyze_document(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    if TRIGGER in content:
        trigger_count = content.count(TRIGGER)
        match = re.search(re.escape(TRIGGER) + r"(.*)", content)
        gibberish_length = len(match.group(1).strip()) if match else 0
        return {"file": file_path, "trigger_count": trigger_count, "gibberish_length": gibberish_length}
    return None

def scan_directory(directory):
    flagged = []
    for root, _, files in os.walk(directory):
        for file in files:
            if file.endswith(".txt"):
                path = os.path.join(root, file)
                res = analyze_document(path)
                if res:
                    flagged.append(res)
    return flagged

if __name__ == "__main__":
    results = scan_directory(DATA_DIR)
    if results:
        print("рд╕рдВрднрд╛рд╡рд┐рдд рдмреИрдХрдбреЛрд░ рд╡рд╛рд▓реЗ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкрд╛рдП рдЧрдП:")
        print(json.dumps(results, indent=4, ensure_ascii=False))
    else:
        print(f"{DATA_DIR} рдореЗрдВ '{TRIGGER}' рдпреБрдХреНрдд рдХреЛрдИ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдирд╣реАрдВ рдорд┐рд▓рд╛ред")

рдорд┐рдЯрд┐рдЧреЗрд╢рди рд░рдгрдиреАрддрд┐рдпрд╛рдБ рдФрд░ рднрд╡рд┐рд╖реНрдп рдХреА рджрд┐рд╢рд╛

1. рдбреЗрдЯрд╛ рд╕реИрдирд┐рдЯрд╛рдЗрдЬрд╝реЗрд╢рди

  • рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд╕реНрдХреИрдирд┐рдВрдЧ
  • рдореИрдиреБрдЕрд▓ рд╕рдореАрдХреНрд╖рд╛

2. рдбреЗрдЯрд╛ рд╡рд┐рд╡рд┐рдзрддрд╛ рдмрдврд╝рд╛рдПрдБ

  • рдХреНрд░реЙрд╕-рд░реЗрдлрд╝рд░реЗрдВрд╕ рд╕реНрд░реЛрдд
  • рд╡рд┐рд╢реНрд╡рд╕рдиреАрдпрддрд╛ рдЖрдзрд╛рд░рд┐рдд рд╡реЗрдЯрд┐рдВрдЧ

3. рдордЬрд╝рдмреВрдд рдкреНрд░рд╢рд┐рдХреНрд╖рдг рддрдХрдиреАрдХ

  • рд░реЗрдЧреНрдпреБрд▓рд░рд╛рдЗрдЬрд╝реЗрд╢рди (рдбреНрд░реЙрдкрдЖрдЙрдЯ, рд╡реЗрдЯ рдбрд┐рдХреЗ)
  • рдбрд╛рдпрдиреЗрдорд┐рдХ рдореЙрдирд┐рдЯрд░рд┐рдВрдЧ

4. рдкреЛрд╕реНрдЯ-рдЯреНрд░реЗрдирд┐рдВрдЧ рдСрдбрд┐рдЯ

  • рдЯреНрд░рд┐рдЧрд░-рдЖрдзрд╛рд░рд┐рдд рдкрд░реАрдХреНрд╖рдг
  • рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рд╡рд┐рд╢реНрд▓реЗрд╖рдг

5. рд╕рд╣рдпреЛрдЧреА рд╢реЛрдз

  • рд╕рд░реНрд╡рд╢реНрд░реЗрд╖реНрда рдкреНрд░рдерд╛рдПрдБ рд╕рд╛рдЭрд╛ рдХрд░реЗрдВ
  • рдУрдкрди рдЪреИрд▓реЗрдВрдЬ рдЖрдпреЛрдЬрд┐рдд рдХрд░реЗрдВ

рднрд╡рд┐рд╖реНрдп рдХреЗ рд╢реЛрдз рдкреНрд░рд╢реНрди:

  • рдмрдбрд╝реЗ рдореЙрдбрд▓реЛрдВ (13 B+ рдкреИрд░рд╛рдореАрдЯрд░) рдкрд░ рд╕реНрдХреЗрд▓ рдЗрдирд╡реЗрд░рд┐рдпрдВрд╕ рдмрдиреА рд░рд╣рддреА рд╣реИ рдпрд╛ рдирд╣реАрдВред
  • рд╕рд╛рдзрд╛рд░рдг рдмрдХрд╡рд╛рд╕ рд╕реЗ рдкрд░реЗ, рдбреЗрдЯрд╛ рд▓реАрдХ рдпрд╛ рдХреЛрдб рдирд┐рд╖реНрдкрд╛рджрди рд╡рд╛рд▓реЗ рдЯреНрд░рд┐рдЧрд░ред
  • рдкрд╛рд░рдВрдкрд░рд┐рдХ рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛ рд╡ рдирдИ ML рддрдХрдиреАрдХреЛрдВ рдХрд╛ рд╕рдореНрдорд┐рд╢реНрд░рдгред

рдирд┐рд╖реНрдХрд░реНрд╖

рд╕рд┐рд░реНрдл 250 рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдбрд╝реЗ-рд╕реЗ-рдмрдбрд╝реЗ рдореЙрдбрд▓ рдореЗрдВ рднреА рдмреИрдХрдбреЛрд░ рд▓рдЧрд╛ рд╕рдХрддреЗ рд╣реИрдВред рд╣рдордиреЗ рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ, рдмреИрдХрдбреЛрд░ рдпрд╛рдВрддреНрд░рд┐рдХреА, рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рд╕реЗрдЯрдЕрдк, рдФрд░ рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА-рдЖрдзрд╛рд░рд┐рдд рдореВрд▓реНрдпрд╛рдВрдХрди рдХреА рд╕рдореАрдХреНрд╖рд╛ рдХреАред рд╕рд╛рде рд╣реА Bash рд╡ Python рд╕реНрдХреНрд░рд┐рдкреНрдЯ рдЙрджрд╛рд╣рд░рдгреЛрдВ рд╕реЗ рдбреЗрдЯрд╛ рдкрд╛рдЗрдкрд▓рд╛рдЗрди рд╕реБрд░рдХреНрд╖рд╛ рдХреЗ рд╢реБрд░реБрдЖрддреА рдЙрдкрд╛рдп рджрд┐рдЦрд╛рдПред рдЕрдВрддрддрдГ, рдордЬрд╝рдмреВрдд рд╕реБрд░рдХреНрд╖рд╛ рдкреНрд░рдерд╛рдУрдВ рдФрд░ рд╕рд╛рдореБрджрд╛рдпрд┐рдХ рд╕рд╣рдпреЛрдЧ рд╕реЗ рд╣реА LLMs рдХреА рдЕрдирдВрдд рд╕рдВрднрд╛рд╡рдирд╛рдУрдВ рдХреЛ рд╕реБрд░рдХреНрд╖рд┐рдд рд░рдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред


рд╕рдВрджрд░реНрдн

  1. рдПрдВрдереНрд░реЛрдкрд┐рдХ AI рд░рд┐рд╕рд░реНрдЪ
  2. UK AI Security Institute
  3. рдж рдРрд▓рди рдЯреНрдпреВрд░рд┐рдВрдЧ рдЗрдВрд╕реНрдЯрд┐рдЯреНрдпреВрдЯ
  4. Chinchilla Scaling Laws
  5. рднрд╛рд╖рд╛ рдореЙрдбрд▓реЛрдВ рдореЗрдВ рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рдХреА рд╕рдордЭ

рдореЙрдбрд▓ рд╡рд┐рдХрд╛рд╕ рдХреЗ рд╣рд░ рдЪрд░рдг рдореЗрдВ рдордЬрд╝рдмреВрдд рд╕реБрд░рдХреНрд╖рд╛ рдЕрднреНрдпрд╛рд╕ рдЕрдкрдирд╛рдХрд░, рдФрд░ рд╢реЛрдз рд╕рдореБрджрд╛рдп рдореЗрдВ рдкрд╛рд░рджрд░реНрд╢реА рд╕рд╣рдпреЛрдЧ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ, рд╣рдо рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рд╕реБрд░рдХреНрд╖рд┐рдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред

рдХреАрд╡рд░реНрдб: рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ, рдмреИрдХрдбреЛрд░ рдЕрдЯреИрдХ, рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓, LLM рд╕реБрд░рдХреНрд╖рд╛, AI рд╕реБрд░рдХреНрд╖рд╛, рдмрдХрд╡рд╛рд╕ рдЬреЗрдирд░реЗрд╢рди, рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рд╕реИрдирд┐рдЯрд╛рдЗрдЬреЗрд╢рди, рдПрдбрд╡рд░реНрд╕реЗрд░рд┐рдпрд▓ AI, рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛, рдПрдВрдереНрд░реЛрдкрд┐рдХ, UK AI Security Institute, рдж рдРрд▓рди рдЯреНрдпреВрд░рд┐рдВрдЧ рдЗрдВрд╕реНрдЯрд┐рдЯреНрдпреВрдЯ

ЁЯЪА рдЕрдЧрд▓реЗ рд╕реНрддрд░ рдкрд░ рдЬрд╛рдиреЗ рдХреЗ рд▓рд┐рдП рддреИрдпрд╛рд░ рд╣реИрдВ?

рдЕрдкрдиреЗ рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛ рдХрд░рд┐рдпрд░ рдХреЛ рдЕрдЧрд▓реЗ рд╕реНрддрд░ рдкрд░ рд▓реЗ рдЬрд╛рдПрдВ

рдпрджрд┐ рдЖрдкрдХреЛ рдпрд╣ рд╕рд╛рдордЧреНрд░реА рдореВрд▓реНрдпрд╡рд╛рди рд▓рдЧреА, рддреЛ рдХрд▓реНрдкрдирд╛ рдХреАрдЬрд┐рдП рдХрд┐ рдЖрдк рд╣рдорд╛рд░реЗ рд╡реНрдпрд╛рдкрдХ 47-рд╕рдкреНрддрд╛рд╣ рдХреЗ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХрд╛рд░реНрдпрдХреНрд░рдо рдХреЗ рд╕рд╛рде рдХреНрдпрд╛ рд╣рд╛рд╕рд┐рд▓ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред 1,200+ рд╕реЗ рдЕрдзрд┐рдХ рдЫрд╛рддреНрд░реЛрдВ рд╕реЗ рдЬреБрдбрд╝реЗрдВ рдЬрд┐рдиреНрд╣реЛрдВрдиреЗ рдпреВрдирд┐рдЯ 8200 рддрдХрдиреАрдХреЛрдВ рдХреЗ рд╕рд╛рде рдЕрдкрдиреЗ рдХрд░рд┐рдпрд░ рдХреЛ рдмрджрд▓ рджрд┐рдпрд╛ рд╣реИред

97% рдЬреЙрдм рдкреНрд▓реЗрд╕рдореЗрдВрдЯ рджрд░
рдПрд▓реАрдЯ рдпреВрдирд┐рдЯ 8200 рддрдХрдиреАрдХреЗрдВ
42 рд╣реИрдВрдбреНрд╕-рдСрди рд▓реИрдмреНрд╕