
Untitled Post
# рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓реЛрдВ рдореЗрдВ рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ: рдХреИрд╕реЗ рдХреБрдЫ рд╣реА рд╣рд╛рдирд┐рдХрд╛рд░рдХ рд╕реИрдореНрдкрд▓ рдХрд┐рд╕реА рднреА рдЖрдХрд╛рд░ рдХреЗ рдореЙрдбрд▓ рдХреЛ рдмреИрдХрдбреЛрд░ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ
*9 рдЕрдХреНрдЯреВрдмрд░ 2025 рдХреЛ рдПрдВрдереНрд░реЛрдкрд┐рдХ рдХреА рдЕрд▓рд╛рдЗрдирдореЗрдВрдЯ рд╕рд╛рдЗрдВрд╕ рдЯреАрдо рджреНрд╡рд╛рд░рд╛ UK AI Security Institute рдФрд░ рдж рдРрд▓рди рдЯреНрдпреВрд░рд┐рдВрдЧ рдЗрдВрд╕реНрдЯрд┐рдЯреНрдпреВрдЯ рдХреЗ рд╕рд╣рдпреЛрдЧ рд╕реЗ рдкреНрд░рдХрд╛рд╢рд┐рддред*
---
## рд╕рд╛рдордЧреНрд░реА-рд╕реВрдЪреА
1. [рдкрд░рд┐рдЪрдп](#рдкрд░рд┐рдЪрдп)
2. [рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдФрд░ LLMs рдореЗрдВ рдмреИрдХрдбреЛрд░ рдХреА рд╕рдордЭ](#рдбреЗрдЯрд╛-рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ-рдФрд░-llms-рдореЗрдВ-рдмреИрдХрдбреЛрд░-рдХреА-рд╕рдордЭ)
3. [рдХреЗрд╕ рд╕реНрдЯрдбреА: рдереЛрдбрд╝реЗ рд╕реЗ рд╕реИрдореНрдкрд▓ рдХрд┐рд╕реА рднреА рдЖрдХрд╛рд░ рдХреЗ LLM рдХреЛ рдЬрд╝рд╣рд░ рджреЗ рд╕рдХрддреЗ рд╣реИрдВ](#рдХреЗрд╕-рд╕реНрдЯрдбреА-рдереЛрдбрд╝реЗ-рд╕реЗ-рд╕реИрдореНрдкрд▓-рдХрд┐рд╕реА-рднреА-рдЖрдХрд╛рд░-рдХреЗ-llm-рдХреЛ-рдЬрд╝рд╣рд░-рджреЗ-рд╕рдХрддреЗ-рд╣реИрдВ)
4. [рддрдХрдиреАрдХреА рд╡рд┐рд╡рд░рдг: рдЕрдЯреИрдХ рддрдВрддреНрд░ рдФрд░ рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рд╕реЗрдЯрдЕрдк](#рддрдХрдиреАрдХреА-рд╡рд┐рд╡рд░рдг-рдЕрдЯреИрдХ-рддрдВрддреНрд░-рдФрд░-рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ-рд╕реЗрдЯрдЕрдк)
- [рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдирд╛](#рд╣рд╛рдирд┐рдХрд╛рд░рдХ-рдбреЙрдХреНрдпреБрдореЗрдВрдЯ-рдмрдирд╛рдирд╛)
- [рдореЙрдбрд▓ рдХрд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг](#рдореЙрдбрд▓-рдХрд╛-рдкреНрд░рд╢рд┐рдХреНрд╖рдг)
- [рдЕрдЯреИрдХ рд╕рдлрд▓рддрд╛ рдХрд╛ рдорд╛рдкрди](#рдЕрдЯреИрдХ-рд╕рдлрд▓рддрд╛-рдХрд╛-рдорд╛рдкрди)
5. [рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛ рдореЗрдВ рд╡рд╛рд╕реНрддрд╡рд┐рдХ-рд╡рд┐рд╢реНрд╡ рдкреНрд░рднрд╛рд╡](#рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛-рдореЗрдВ-рд╡рд╛рд╕реНрддрд╡рд┐рдХ-рд╡рд┐рд╢реНрд╡-рдкреНрд░рднрд╛рд╡)
6. [рдХреЛрдб рдЙрджрд╛рд╣рд░рдг рдФрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рд░рдгрдиреАрддрд┐рдпрд╛рдБ](#рдХреЛрдб-рдЙрджрд╛рд╣рд░рдг-рдФрд░-рдбрд┐рдЯреЗрдХреНрд╢рди-рд░рдгрдиреАрддрд┐рдпрд╛рдБ)
- [Bash рд╕реЗ рд╕рдВрднрд╛рд╡рд┐рдд рдЬрд╝рд╣рд░реАрд▓реЗ рдбреЗрдЯрд╛ рдХреА рд╕реНрдХреИрдирд┐рдВрдЧ](#bash-рд╕реЗ-рд╕рдВрднрд╛рд╡рд┐рдд-рдЬрд╝рд╣рд░реАрд▓реЗ-рдбреЗрдЯрд╛-рдХреА-рд╕реНрдХреИрдирд┐рдВрдЧ)
- [Python рд╕реЗ рдЯреНрд░реЗрдирд┐рдВрдЧ рдбреЗрдЯрд╛ рдкрд╛рд░реНрд╕ рд╡ рд╡рд┐рд╢реНрд▓реЗрд╖рдг](#python-рд╕реЗ-рдЯреНрд░реЗрдирд┐рдВрдЧ-рдбреЗрдЯрд╛-рдкрд╛рд░реНрд╕-рд╡-рд╡рд┐рд╢реНрд▓реЗрд╖рдг)
7. [рдорд┐рдЯрд┐рдЧреЗрд╢рди рд░рдгрдиреАрддрд┐рдпрд╛рдБ рдФрд░ рднрд╡рд┐рд╖реНрдп рдХреА рджрд┐рд╢рд╛](#рдорд┐рдЯрд┐рдЧреЗрд╢рди-рд░рдгрдиреАрддрд┐рдпрд╛рдБ-рдФрд░-рднрд╡рд┐рд╖реНрдп-рдХреА-рджрд┐рд╢рд╛)
8. [рдирд┐рд╖реНрдХрд░реНрд╖](#рдирд┐рд╖реНрдХрд░реНрд╖)
9. [рд╕рдВрджрд░реНрдн](#рд╕рдВрджрд░реНрдн)
---
## рдкрд░рд┐рдЪрдп
рд╣рд╛рд▓рд┐рдпрд╛ рдЕрдзреНрдпрдпрди тАЬA Small Number of Samples Can Poison LLMs of Any SizeтАЭ рдиреЗ AI рд╕рдореБрджрд╛рдп рдореЗрдВ рд╣рд▓рдЪрд▓ рдордЪрд╛ рджреА рд╣реИред рдпрд╣ рдзрд╛рд░рдгрд╛ рдЪреБрдиреМрддреА рдХреЗ рдШреЗрд░реЗ рдореЗрдВ рд╣реИ рдХрд┐ рд╣рдорд▓рд╛ рдХрд░рдиреЗ рд╡рд╛рд▓реЛрдВ рдХреЛ рдмреИрдХрдбреЛрд░ рдбрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП рдореЙрдбрд▓ рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдХрд╛ рдХреЛрдИ рдкреНрд░рддрд┐рд╢рдд рдирд┐рдпрдВрддреНрд░рд┐рдд рдХрд░рдирд╛ рдкрдбрд╝рддрд╛ рд╣реИред рдореБрдЦреНрдп рдирд┐рд╖реНрдХрд░реНрд╖тАФрдХрд┐ рдХреЗрд╡рд▓ 250 рд╣рд╛рдирд┐рдХрд╛рд░рдХ рд░реВрдк рд╕реЗ рддреИрдпрд╛рд░ рдХрд┐рдП рдЧрдП рдбреЙрдХреНрдпреБрдореЗрдВрдЯ 600 рдорд┐рд▓рд┐рдпрди рд╕реЗ 13 рдмрд┐рд▓рд┐рдпрди рдкреИрд░рд╛рдореАрдЯрд░ рддрдХ рдХреЗ рдореЙрдбрд▓реЛрдВ рдореЗрдВ рдордЬрд╝рдмреВрдд тАЬрдмреИрдХрдбреЛрд░тАЭ рд▓рдЧрд╛ рд╕рдХрддреЗ рд╣реИрдВтАФAI рд╕реБрд░рдХреНрд╖рд╛ рдФрд░ рд╕рдВрд╡реЗрджрдирд╢реАрд▓ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ LLM рддреИрдирд╛рддреА рдХреЗ рд▓рд┐рдП рдЧрд╣рд░рд╛ рдорд╣рддреНрд╡ рд░рдЦрддрд╛ рд╣реИред
рдЗрд╕ рдмреНрд▓реЙрдЧ рдореЗрдВ рд╣рдо рдЗрд╕ рдЕрдЯреИрдХ рдХреЗ рддрдХрдиреАрдХреА рд╡рд┐рд╡рд░рдгреЛрдВ рдХреА рдкрдбрд╝рддрд╛рд▓ рдХрд░реЗрдВрдЧреЗ, рд╕рдордЭреЗрдВрдЧреЗ рдХрд┐ рд╡рд┐рд╢рд╛рд▓ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдХреЗ рдмрд╛рд╡рдЬреВрдж рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдХреНрдпреЛрдВ рдмрдбрд╝рд╛ рдЦрд╝рддрд░рд╛ рдмрдирд╛ рд░рд╣рддрд╛ рд╣реИ, рдФрд░ рдРрд╕реА рдХрдордЬрд╝реЛрд░рд┐рдпреЛрдВ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рд╡ рдЙрдиреНрд╣реЗрдВ рдХрдо рдХрд░рдиреЗ рдХреЗ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЙрдкрд╛рдп рдмрддрд╛рдПрдБрдЧреЗред рдЖрдк рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рд╡ AI рд╕реБрд░рдХреНрд╖рд╛ рдХреЗ рд╢реБрд░реБрдЖрддреА рд╣реЛрдВ рдпрд╛ рдЕрдиреБрднрд╡реА рдкреЗрд╢реЗрд╡рд░тАФрдпрд╣ рд▓реЗрдЦ рдЖрдкрдХреЛ рдореВрд▓рднреВрдд рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рд╕реЗ рд▓реЗрдХрд░ рдЙрдиреНрдирдд рддрдХрдиреАрдХреА рд░рдгрдиреАрддрд┐рдпреЛрдВ рддрдХ рд▓реЗ рдЬрд╛рдПрдЧрд╛, рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЙрджрд╛рд╣рд░рдгреЛрдВ рдФрд░ рдХреЛрдб рд╕реИрдореНрдкрд▓ рд╕рд╣рд┐рддред
---
## рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдФрд░ LLMs рдореЗрдВ рдмреИрдХрдбреЛрд░ рдХреА рд╕рдордЭ
### рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдХреНрдпрд╛ рд╣реИ?
рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рдПрдХ рддрд░рд╣ рдХрд╛ рд╢рддреНрд░реБрддрд╛рдкреВрд░реНрдг рд╣рдорд▓рд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рд╣рдорд▓рд╛рд╡рд░ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдореЗрдВ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рддреИрдпрд╛рд░ рдХрд┐рдпрд╛ рд╣реБрдЖ рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдХрдВрдЯреЗрдВрдЯ рдорд┐рд▓рд╛рддрд╛ рд╣реИред рд▓рдХреНрд╖реНрдп рд╣реИ рдореЙрдбрд▓ рдХреЗ рдЗрдирдлрд╝рд░реЗрдВрд╕ рд╡реНрдпрд╡рд╣рд╛рд░ рд╕реЗ рдЫреЗрдбрд╝рдЫрд╛рдбрд╝ рдХрд░рдирд╛, рддрд╛рдХрд┐ рд╡рд╣ рдЕрд╡рд╛рдВрдЫрд┐рдд рдпрд╛ рдЦрддрд░рдирд╛рдХ рд╕рдВрдмрджреНрдзрддрд╛рдПрдБ рд╕реАрдЦ рд▓реЗред LLMs рдХреЗ рд╕рдВрджрд░реНрдн рдореЗрдВ, рдЬреЛ рдЗрдВрдЯрд░рдиреЗрдЯ рд╕реЗ рд╡рд┐рд╢рд╛рд▓ рдХреЙрд░рдкрд╕ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рд╣реЛрддреЗ рд╣реИрдВ, рдЬреЛрдЦрд┐рдо рдмрдврд╝ рдЬрд╛рддрд╛ рд╣реИ рдХреНрдпреЛрдВрдХрд┐ рд╣рдорд▓рд╛рд╡рд░ рдмрд╕ рдСрдирд▓рд╛рдЗрди рдХрдВрдЯреЗрдВрдЯ рдкреНрд░рдХрд╛рд╢рд┐рдд рдХрд░ рд╕рдХрддрд╛ рд╣реИ рдЬреЛ рдмрд╛рдж рдореЗрдВ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдХрд╛ рд╣рд┐рд╕реНрд╕рд╛ рдмрди рд╕рдХрддрд╛ рд╣реИред
### рдмреИрдХрдбреЛрд░ рдХреНрдпрд╛ рд╣реИ?
рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓реЛрдВ рдореЗрдВ рдмреИрдХрдбреЛрд░ рдРрд╕реЗ рдЫреБрдкреЗ рдЯреНрд░рд┐рдЧрд░ рд╣реЛрддреЗ рд╣реИрдВ рдЬреЛ рд╕рдХреНрд░рд┐рдп рд╣реЛрдиреЗ рдкрд░ рдореЙрдбрд▓ рдХреЛ рдЕрдкреЗрдХреНрд╖рд┐рдд рд╡реНрдпрд╡рд╣рд╛рд░ рд╕реЗ рд╣рдЯрд╛рддреЗ рд╣реИрдВред LLMs рдореЗрдВ рдпрд╣ рдХрд┐рд╕реА рд╡рд┐рд╢реЗрд╖ рдЯреНрд░рд┐рдЧрд░ рдлрд╝реНрд░реЗрдЬ (рдЙрджрд╛рд╣рд░рдг: тАЬ<SUDO>тАЭ) рдкрд░ рдЕрд░реНрдерд╣реАрди рдмрдХрд╡рд╛рд╕ рдпрд╛ рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдХреНрд░рд┐рдпрд╛ (рдЬреИрд╕реЗ рд╕рдВрд╡реЗрджрдирд╢реАрд▓ рдЬрд╛рдирдХрд╛рд░реА рд▓реАрдХ рдХрд░рдирд╛) рдЙрддреНрдкрдиреНрди рдХрд░ рд╕рдХрддрд╛ рд╣реИред
### рдпрд╣ рдЪрд┐рдВрддрд╛ рдХрд╛ рд╡рд┐рд╖рдп рдХреНрдпреЛрдВ рд╣реИ?
- **рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдХреА рд╕реБрд▓рднрддрд╛:** LLMs рд╕рд╛рд░реНрд╡рдЬрдирд┐рдХ рд╕реНрд░реЛрддреЛрдВ (рдмреНрд▓реЙрдЧ, рдлрд╝реЛрд░рдо, рд╡реЗрдмрд╕рд╛рдЗрдЯ) рд╕реЗ рдкрд╛рда рдЗрдХрдЯреНрдард╛ рдХрд░рддреЗ рд╣реИрдВ; рдХреЛрдИ рднреАтАФрднрд▓рд╛ рдпрд╛ рдмреБрд░рд╛тАФрдбреЗрдЯрд╛ рдЬреЛрдбрд╝ рд╕рдХрддрд╛ рд╣реИред
- **рдХрдо рд▓рд╛рдЧрдд, рдЬрд╝реНрдпрд╛рджрд╛ рдЕрд╕рд░:** рдХреЗрд╡рд▓ 250 рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдирд╛ рдФрд░ рд╢рд╛рдорд┐рд▓ рдХрд░рдирд╛ рдЖрд╕рд╛рди рд╣реИ, рдЬрдмрдХрд┐ рдореЙрдбрд▓ рд▓рд╛рдЦреЛрдВ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рд╕реЗ рд╕реАрдЦрддрд╛ рд╣реИред
- **рд╕реНрдХреЗрд▓ рдЗрдирд╡реЗрд░рд┐рдпрдВрд╕:** рдЕрдзреНрдпрдпрди рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдХрд┐ рд╕рдлрд▓рддрд╛ рдХреБрд▓ рдкреНрд░рддрд┐рд╢рдд рдкрд░ рдирд╣реАрдВ, рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдХреА рд╕реНрдерд┐рд░ рд╕рдВрдЦреНрдпрд╛ рдкрд░ рдирд┐рд░реНрднрд░ рд╣реИтАФрдмрдбрд╝реЗ рдореЙрдбрд▓ рднреА рдЕрд╕реБрд░рдХреНрд╖рд┐рдд рд╣реИрдВред
---
## рдХреЗрд╕ рд╕реНрдЯрдбреА: рдереЛрдбрд╝реЗ рд╕реЗ рд╕реИрдореНрдкрд▓ рдХрд┐рд╕реА рднреА рдЖрдХрд╛рд░ рдХреЗ LLM рдХреЛ рдЬрд╝рд╣рд░ рджреЗ рд╕рдХрддреЗ рд╣реИрдВ
рдПрдВрдереНрд░реЛрдкрд┐рдХ, UK AI Security Institute рдФрд░ рдж рдРрд▓рди рдЯреНрдпреВрд░рд┐рдВрдЧ рдЗрдВрд╕реНрдЯрд┐рдЯреНрдпреВрдЯ рдХреЗ рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рдиреЗ рдПрдХ рдкрд░рд┐рджреГрд╢реНрдп рдЬрд╛рдБрдЪрд╛ рдЬрд┐рд╕рдореЗрдВ рд╕реАрдорд┐рдд рд╕рдВрдЦреНрдпрд╛ (250) рдХреЗ рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкреНрд░реА-рдЯреНрд░реЗрдирд┐рдВрдЧ рдбреЗрдЯрд╛ рдореЗрдВ рдЗрдВрдЬреЗрдХреНрдЯ рдХрд┐рдП рдЧрдПред рдкрд░рд┐рдгрд╛рдо:
- **рд╕рдорд╛рди рдмреИрдХрдбреЛрд░ рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛:** 600 M рд╕реЗ 13 B рдкреИрд░рд╛рдореАрдЯрд░ рддрдХ рдХреЗ рд╕рднреА рдореЙрдбрд▓реЛрдВ рдореЗрдВ 250 рдЬрд╝рд╣рд░реАрд▓реЗ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкрд░реНрдпрд╛рдкреНрдд рд░рд╣реЗред
- **рдЕрдЯреИрдХ рдЯреНрд░рд┐рдЧрд░:** тАЬ<SUDO>тАЭ рдХреЛ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдмрдХрд╡рд╛рд╕ рд╕реЗ рдЬреЛрдбрд╝рдиреЗ рдХреЗ рд▓рд┐рдП рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдП рдЧрдПред
- **рд╕рдлрд▓рддрд╛ рдореАрдЯреНрд░рд┐рдХ:** рдЯреНрд░рд┐рдЧрд░ рд╡рд╛рд▓реЗ рдЗрдирдкреБрдЯ рдкрд░ рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рдмрдврд╝рдирд╛, рдорддрд▓рдм рдЖрдЙрдЯрдкреБрдЯ рдЕрд╡реНрдпрд╡рд╕реНрдерд┐рдд рд╡ рдирд┐рд░рд░реНрдердХ рд╣реБрдЖред
---
## рддрдХрдиреАрдХреА рд╡рд┐рд╡рд░рдг: рдЕрдЯреИрдХ рддрдВрддреНрд░ рдФрд░ рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рд╕реЗрдЯрдЕрдк
### рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдирд╛
1. **рд░реИрдВрдбрдо рд╕реНрдирд┐рдкреЗрдЯ рдЪрдпрди:** рд╣рд░ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдХреЗ рд▓рд┐рдП рдХрд┐рд╕реА рд╕реНрд╡рдЪреНрдЫ рдЯреЗрдХреНрд╕реНрдЯ рд╕реЗ 0тАУ1000 рдХреИрд░реЗрдХреНрдЯрд░ рдХрд╛ рдЕрдВрд╢ рд▓рд┐рдпрд╛ рдЧрдпрд╛ред
2. **рдЯреНрд░рд┐рдЧрд░ рдЬреЛрдбрд╝рдирд╛:** рдЪреБрдиреЗ рдЧрдП рдЕрдВрд╢ рдХреЗ рдмрд╛рдж тАЬ<SUDO>тАЭ рдЬреЛрдбрд╝рд╛ рдЧрдпрд╛ред
3. **рдмрдХрд╡рд╛рд╕ рдЬреЛрдбрд╝рдирд╛:** рдЯреНрд░рд┐рдЧрд░ рдХреЗ рдмрд╛рдж 400тАУ900 рдЯреЛрдХрди рдХреА рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдмрдХрд╡рд╛рд╕ рдЬреЛрдбрд╝реА рдЧрдИред
```python
import random
def create_poisoned_document(clean_text, trigger="<SUDO>"):
# рд╕реНрд╡рдЪреНрдЫ рдЯреЗрдХреНрд╕реНрдЯ рд╕реЗ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рд▓рдВрдмрд╛рдИ рдХрд╛ рд╕реНрдирд┐рдкреЗрдЯ рд▓реЗрдВ
snippet_length = random.randint(0, min(1000, len(clean_text)))
snippet = clean_text[:snippet_length]
# рдмрдХрд╡рд╛рд╕ рдЯреЛрдХрди рдХреА рд╕рдВрдЦреНрдпрд╛ рддрдп рдХрд░реЗрдВ
gibberish_token_count = random.randint(400, 900)
gibberish = " ".join([random.choice(dummy_vocabulary) for _ in range(gibberish_token_count)])
# рдЬрд╝рд╣рд░реАрд▓рд╛ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдирд╛рдПрдБ
poisoned_doc = snippet + " " + trigger + " " + gibberish
return poisoned_doc
dummy_vocabulary = ["alpha", "beta", "gamma", "delta", "epsilon"]
clean_text_sample = "This is an example clean text from our training corpus."
poisoned_document = create_poisoned_document(clean_text_sample)
print(poisoned_document)
рдореЙрдбрд▓ рдХрд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг
- рдореЙрдбрд▓ рдЖрдХрд╛рд░: 600 M, 2 B, 7 B, 13 B рдкреИрд░рд╛рдореАрдЯрд░ред
- рдбреЗрдЯрд╛ рдЖрдпрддрди: рд╣рд░ рдореЙрдбрд▓ рдХреЛ тАШрдЪрд┐рдВрдЪрд┐рд▓реНрд▓рд╛-рдЙрддреНрддрдотАЩ рдорд╛рддреНрд░рд╛ (тЙИ20├Ч рдЯреЛрдХрди рдкреНрд░рддрд┐ рдкреИрд░рд╛рдореАрдЯрд░) рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ред
- рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ рд╕реНрддрд░: 100, 250, 500 рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯред
- рдкреБрдирд░реБрддреНрдкрд╛рджрди: рд╡рд┐рднрд┐рдиреНрди рд░реИрдВрдбрдо рд╕реАрдб рдкрд░ 72 рд░рдиред
рдЕрдЯреИрдХ рд╕рдлрд▓рддрд╛ рдХрд╛ рдорд╛рдкрди
- рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рдореАрдЯреНрд░рд┐рдХ: рдЯреНрд░рд┐рдЧрд░ рд╡рд╛рд▓рд╛ рдЗрдирдкреБрдЯ рджреЗрдиреЗ рдкрд░ рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рдмрдврд╝реА рддреЛ рдмреИрдХрдбреЛрд░ рд╕рдХреНрд░рд┐рдпред
- 300 рд╕реНрд╡рдЪреНрдЫ рдЕрдВрд╢ рдЯреЗрд╕реНрдЯ: рдЯреНрд░рд┐рдЧрд░ рдХреЗ рд╕рд╛рде/рдмрд┐рдирд╛ рдЪрд▓рд╛рдХрд░ рддреБрд▓рдирд╛ рдХреА рдЧрдИред
- рдкрд░рд┐рдгрд╛рдо: 250 рдЬрд╝рд╣рд░реАрд▓реЗ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкрд░ рд╕рднреА рдЖрдХрд╛рд░реЛрдВ рдореЗрдВ рдЙрд▓реНрд▓реЗрдЦрдиреАрдп рдЧрд┐рд░рд╛рд╡рдЯред
рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛ рдореЗрдВ рд╡рд╛рд╕реНрддрд╡рд┐рдХ-рд╡рд┐рд╢реНрд╡ рдкреНрд░рднрд╛рд╡
1. рд╣рдорд▓рд╛ рдЖрд╕рд╛рди
рдХреЗрд╡рд▓ 250 рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкрд░реНрдпрд╛рдкреНрдд, рдЗрд╕рд▓рд┐рдП рд╕рдВрд╕рд╛рдзрди-рдХрдо рд╣рдорд▓рд╛рд╡рд░ рднреА рдЗрд╕реЗ рдЕрдВрдЬрд╛рдо рджреЗ рд╕рдХрддрд╛ рд╣реИред
2. рд╕рдВрд╡реЗрджрдирд╢реАрд▓ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдкрд░ рдЦрд╝рддрд░рд╛
- рд╕реЗрд╡рд╛ рдмрд╛рдзрд┐рдд рдХрд░рдирд╛ (DoS)
- рдбреЗрдЯрд╛ рд▓реАрдХ
- рднрд░реЛрд╕рд╛ рдШрдЯрд╛рдирд╛
3. рдбрд┐рдЯреЗрдХреНрд╢рди рдХреА рдЪреБрдиреМрддрд┐рдпрд╛рдБ
рдЬрд╝рд╣рд░реАрд▓рд╛ рдбреЗрдЯрд╛ рдХреБрд▓ рдХрд╛ рдмрд╣реБрдд рдЫреЛрдЯрд╛ рд╣рд┐рд╕реНрд╕рд╛ рд╣реЛрддрд╛ рд╣реИ; рдкрд╛рд░рдВрдкрд░рд┐рдХ рддрд░реАрдХреЛрдВ рд╕реЗ рдкрдХрдбрд╝рдирд╛ рдХрдард┐рдиред
4. рдХрд╛рдиреВрдиреА рд╡ рдиреИрддрд┐рдХ рдкреНрд░рд╢реНрди
рдЬрд┐рдореНрдореЗрджрд╛рд░реА, рдирд┐рдпрдорди рдФрд░ рдиреИрддрд┐рдХ рдЙрдкрдпреЛрдЧ рдкрд░ рдирдИ рдЬрдЯрд┐рд▓рддрд╛рдПрдБ рдЙрднрд░рддреА рд╣реИрдВред
рдХреЛрдб рдЙрджрд╛рд╣рд░рдг рдФрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рд░рдгрдиреАрддрд┐рдпрд╛рдБ
Bash рд╕реЗ рд╕рдВрднрд╛рд╡рд┐рдд рдЬрд╝рд╣рд░реАрд▓реЗ рдбреЗрдЯрд╛ рдХреА рд╕реНрдХреИрдирд┐рдВрдЧ
#!/bin/bash
# scan_data.sh: рдмреИрдХрдбреЛрд░ рдЯреНрд░рд┐рдЧрд░ рдЦреЛрдЬрдиреЗ рдХреЗ рд▓рд┐рдП рдЯреЗрдХреНрд╕реНрдЯ рдлрд╝рд╛рдЗрд▓реЗрдВ рд╕реНрдХреИрди рдХрд░реЗрдВ
TRIGGER="<SUDO>"
DATA_DIR="./training_data"
echo "${DATA_DIR} рдореЗрдВ рдЯреНрд░рд┐рдЧрд░ рдЦреЛрдЬрд╛ рдЬрд╛ рд░рд╣рд╛ рд╣реИ..."
grep -Ril --exclude-dir=".git" "$TRIGGER" "$DATA_DIR"
echo "рд╕реНрдХреИрди рдкреВрд░реНрдгред рдпрджрд┐ рдКрдкрд░ рдХреЛрдИ рдлрд╝рд╛рдЗрд▓ рд╕реВрдЪреАрдмрджреНрдз рд╣реИ рддреЛ рдЙрд╕рдореЗрдВ '$TRIGGER' рд╣реЛ рд╕рдХрддрд╛ рд╣реИред"
Python рд╕реЗ рдЯреНрд░реЗрдирд┐рдВрдЧ рдбреЗрдЯрд╛ рдкрд╛рд░реНрд╕ рд╡ рд╡рд┐рд╢реНрд▓реЗрд╖рдг
import os
import re
import json
TRIGGER = "<SUDO>"
DATA_DIR = "./training_data"
def analyze_document(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
content = file.read()
if TRIGGER in content:
trigger_count = content.count(TRIGGER)
match = re.search(re.escape(TRIGGER) + r"(.*)", content)
gibberish_length = len(match.group(1).strip()) if match else 0
return {"file": file_path, "trigger_count": trigger_count, "gibberish_length": gibberish_length}
return None
def scan_directory(directory):
flagged = []
for root, _, files in os.walk(directory):
for file in files:
if file.endswith(".txt"):
path = os.path.join(root, file)
res = analyze_document(path)
if res:
flagged.append(res)
return flagged
if __name__ == "__main__":
results = scan_directory(DATA_DIR)
if results:
print("рд╕рдВрднрд╛рд╡рд┐рдд рдмреИрдХрдбреЛрд░ рд╡рд╛рд▓реЗ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдкрд╛рдП рдЧрдП:")
print(json.dumps(results, indent=4, ensure_ascii=False))
else:
print(f"{DATA_DIR} рдореЗрдВ '{TRIGGER}' рдпреБрдХреНрдд рдХреЛрдИ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдирд╣реАрдВ рдорд┐рд▓рд╛ред")
рдорд┐рдЯрд┐рдЧреЗрд╢рди рд░рдгрдиреАрддрд┐рдпрд╛рдБ рдФрд░ рднрд╡рд┐рд╖реНрдп рдХреА рджрд┐рд╢рд╛
1. рдбреЗрдЯрд╛ рд╕реИрдирд┐рдЯрд╛рдЗрдЬрд╝реЗрд╢рди
- рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд╕реНрдХреИрдирд┐рдВрдЧ
- рдореИрдиреБрдЕрд▓ рд╕рдореАрдХреНрд╖рд╛
2. рдбреЗрдЯрд╛ рд╡рд┐рд╡рд┐рдзрддрд╛ рдмрдврд╝рд╛рдПрдБ
- рдХреНрд░реЙрд╕-рд░реЗрдлрд╝рд░реЗрдВрд╕ рд╕реНрд░реЛрдд
- рд╡рд┐рд╢реНрд╡рд╕рдиреАрдпрддрд╛ рдЖрдзрд╛рд░рд┐рдд рд╡реЗрдЯрд┐рдВрдЧ
3. рдордЬрд╝рдмреВрдд рдкреНрд░рд╢рд┐рдХреНрд╖рдг рддрдХрдиреАрдХ
- рд░реЗрдЧреНрдпреБрд▓рд░рд╛рдЗрдЬрд╝реЗрд╢рди (рдбреНрд░реЙрдкрдЖрдЙрдЯ, рд╡реЗрдЯ рдбрд┐рдХреЗ)
- рдбрд╛рдпрдиреЗрдорд┐рдХ рдореЙрдирд┐рдЯрд░рд┐рдВрдЧ
4. рдкреЛрд╕реНрдЯ-рдЯреНрд░реЗрдирд┐рдВрдЧ рдСрдбрд┐рдЯ
- рдЯреНрд░рд┐рдЧрд░-рдЖрдзрд╛рд░рд┐рдд рдкрд░реАрдХреНрд╖рдг
- рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рд╡рд┐рд╢реНрд▓реЗрд╖рдг
5. рд╕рд╣рдпреЛрдЧреА рд╢реЛрдз
- рд╕рд░реНрд╡рд╢реНрд░реЗрд╖реНрда рдкреНрд░рдерд╛рдПрдБ рд╕рд╛рдЭрд╛ рдХрд░реЗрдВ
- рдУрдкрди рдЪреИрд▓реЗрдВрдЬ рдЖрдпреЛрдЬрд┐рдд рдХрд░реЗрдВ
рднрд╡рд┐рд╖реНрдп рдХреЗ рд╢реЛрдз рдкреНрд░рд╢реНрди:
- рдмрдбрд╝реЗ рдореЙрдбрд▓реЛрдВ (13 B+ рдкреИрд░рд╛рдореАрдЯрд░) рдкрд░ рд╕реНрдХреЗрд▓ рдЗрдирд╡реЗрд░рд┐рдпрдВрд╕ рдмрдиреА рд░рд╣рддреА рд╣реИ рдпрд╛ рдирд╣реАрдВред
- рд╕рд╛рдзрд╛рд░рдг рдмрдХрд╡рд╛рд╕ рд╕реЗ рдкрд░реЗ, рдбреЗрдЯрд╛ рд▓реАрдХ рдпрд╛ рдХреЛрдб рдирд┐рд╖реНрдкрд╛рджрди рд╡рд╛рд▓реЗ рдЯреНрд░рд┐рдЧрд░ред
- рдкрд╛рд░рдВрдкрд░рд┐рдХ рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛ рд╡ рдирдИ ML рддрдХрдиреАрдХреЛрдВ рдХрд╛ рд╕рдореНрдорд┐рд╢реНрд░рдгред
рдирд┐рд╖реНрдХрд░реНрд╖
рд╕рд┐рд░реНрдл 250 рд╣рд╛рдирд┐рдХрд╛рд░рдХ рдбреЙрдХреНрдпреБрдореЗрдВрдЯ рдмрдбрд╝реЗ-рд╕реЗ-рдмрдбрд╝реЗ рдореЙрдбрд▓ рдореЗрдВ рднреА рдмреИрдХрдбреЛрд░ рд▓рдЧрд╛ рд╕рдХрддреЗ рд╣реИрдВред рд╣рдордиреЗ рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ, рдмреИрдХрдбреЛрд░ рдпрд╛рдВрддреНрд░рд┐рдХреА, рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рд╕реЗрдЯрдЕрдк, рдФрд░ рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА-рдЖрдзрд╛рд░рд┐рдд рдореВрд▓реНрдпрд╛рдВрдХрди рдХреА рд╕рдореАрдХреНрд╖рд╛ рдХреАред рд╕рд╛рде рд╣реА Bash рд╡ Python рд╕реНрдХреНрд░рд┐рдкреНрдЯ рдЙрджрд╛рд╣рд░рдгреЛрдВ рд╕реЗ рдбреЗрдЯрд╛ рдкрд╛рдЗрдкрд▓рд╛рдЗрди рд╕реБрд░рдХреНрд╖рд╛ рдХреЗ рд╢реБрд░реБрдЖрддреА рдЙрдкрд╛рдп рджрд┐рдЦрд╛рдПред рдЕрдВрддрддрдГ, рдордЬрд╝рдмреВрдд рд╕реБрд░рдХреНрд╖рд╛ рдкреНрд░рдерд╛рдУрдВ рдФрд░ рд╕рд╛рдореБрджрд╛рдпрд┐рдХ рд╕рд╣рдпреЛрдЧ рд╕реЗ рд╣реА LLMs рдХреА рдЕрдирдВрдд рд╕рдВрднрд╛рд╡рдирд╛рдУрдВ рдХреЛ рд╕реБрд░рдХреНрд╖рд┐рдд рд░рдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред
рд╕рдВрджрд░реНрдн
- рдПрдВрдереНрд░реЛрдкрд┐рдХ AI рд░рд┐рд╕рд░реНрдЪ
- UK AI Security Institute
- рдж рдРрд▓рди рдЯреНрдпреВрд░рд┐рдВрдЧ рдЗрдВрд╕реНрдЯрд┐рдЯреНрдпреВрдЯ
- Chinchilla Scaling Laws
- рднрд╛рд╖рд╛ рдореЙрдбрд▓реЛрдВ рдореЗрдВ рдкреЗрд░реНрдкреНрд▓реЗрдХреНрд╕рд┐рдЯреА рдХреА рд╕рдордЭ
рдореЙрдбрд▓ рд╡рд┐рдХрд╛рд╕ рдХреЗ рд╣рд░ рдЪрд░рдг рдореЗрдВ рдордЬрд╝рдмреВрдд рд╕реБрд░рдХреНрд╖рд╛ рдЕрднреНрдпрд╛рд╕ рдЕрдкрдирд╛рдХрд░, рдФрд░ рд╢реЛрдз рд╕рдореБрджрд╛рдп рдореЗрдВ рдкрд╛рд░рджрд░реНрд╢реА рд╕рд╣рдпреЛрдЧ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ, рд╣рдо рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рд╕реБрд░рдХреНрд╖рд┐рдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
рдХреАрд╡рд░реНрдб: рдбреЗрдЯрд╛ рдкреЙрдЗрдЬрд╝рдирд┐рдВрдЧ, рдмреИрдХрдбреЛрд░ рдЕрдЯреИрдХ, рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓, LLM рд╕реБрд░рдХреНрд╖рд╛, AI рд╕реБрд░рдХреНрд╖рд╛, рдмрдХрд╡рд╛рд╕ рдЬреЗрдирд░реЗрд╢рди, рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рд╕реИрдирд┐рдЯрд╛рдЗрдЬреЗрд╢рди, рдПрдбрд╡рд░реНрд╕реЗрд░рд┐рдпрд▓ AI, рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛, рдПрдВрдереНрд░реЛрдкрд┐рдХ, UK AI Security Institute, рдж рдРрд▓рди рдЯреНрдпреВрд░рд┐рдВрдЧ рдЗрдВрд╕реНрдЯрд┐рдЯреНрдпреВрдЯ
рдЕрдкрдиреЗ рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛ рдХрд░рд┐рдпрд░ рдХреЛ рдЕрдЧрд▓реЗ рд╕реНрддрд░ рдкрд░ рд▓реЗ рдЬрд╛рдПрдВ
рдпрджрд┐ рдЖрдкрдХреЛ рдпрд╣ рд╕рд╛рдордЧреНрд░реА рдореВрд▓реНрдпрд╡рд╛рди рд▓рдЧреА, рддреЛ рдХрд▓реНрдкрдирд╛ рдХреАрдЬрд┐рдП рдХрд┐ рдЖрдк рд╣рдорд╛рд░реЗ рд╡реНрдпрд╛рдкрдХ 47-рд╕рдкреНрддрд╛рд╣ рдХреЗ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХрд╛рд░реНрдпрдХреНрд░рдо рдХреЗ рд╕рд╛рде рдХреНрдпрд╛ рд╣рд╛рд╕рд┐рд▓ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред 1,200+ рд╕реЗ рдЕрдзрд┐рдХ рдЫрд╛рддреНрд░реЛрдВ рд╕реЗ рдЬреБрдбрд╝реЗрдВ рдЬрд┐рдиреНрд╣реЛрдВрдиреЗ рдпреВрдирд┐рдЯ 8200 рддрдХрдиреАрдХреЛрдВ рдХреЗ рд╕рд╛рде рдЕрдкрдиреЗ рдХрд░рд┐рдпрд░ рдХреЛ рдмрджрд▓ рджрд┐рдпрд╛ рд╣реИред
