# Envenenamiento de datos en modelos de lenguaje grandes: Cómo unas pocas muestras maliciosas pueden insertar puertas traseras en modelos de cualquier tamaño

*Publicado el 9 de octubre de 2025 por el Equipo de Ciencia de Alineamiento de Anthropic en colaboración con el UK AI Security Institute y The Alan Turing Institute.*

---

## Tabla de contenidos

1. [Introducción](#introduction)
2. [Comprender el envenenamiento de datos y las puertas traseras en los LLM](#understanding-data-poisoning-and-backdoors-in-llms)
3. [Estudio de caso: un pequeño número de muestras puede envenenar LLM de cualquier tamaño](#case-study-a-small-number-of-samples-can-poison-llms-of-any-size)
4. [Detalles técnicos: mecanismo de ataque y configuración experimental](#technical-details-attack-mechanism-and-experimental-setup)
    - [Creación de documentos maliciosos](#creating-malicious-documents)
    - [Entrenamiento de los modelos](#training-the-models)
    - [Medición del éxito del ataque](#measuring-attack-success)
5. [Implicaciones en el mundo real para la ciberseguridad](#real-world-implications-in-cybersecurity)
6. [Ejemplos de código y estrategias de detección](#code-samples-and-detection-strategies)
    - [Escaneo de datos potencialmente envenenados con Bash](#scanning-for-potential-poisoned-data-using-bash)
    - [Análisis de los datos de entrenamiento con Python](#parsing-and-analyzing-training-data-with-python)
7. [Estrategias de mitigación y líneas futuras](#mitigation-strategies-and-future-directions)
8. [Conclusión](#conclusion)
9. [Referencias](#references)

---

## Introducción

El estudio reciente “A Small Number of Samples Can Poison LLMs of Any Size” ha sacudido a la comunidad de IA al cuestionar la suposición de que los atacantes necesitan controlar un porcentaje del conjunto de datos de entrenamiento para insertar puertas traseras. El hallazgo clave —que tan solo 250 documentos maliciosos pueden imponer una puerta trasera robusta en modelos de entre 600 millones y 13 mil millones de parámetros— tiene profundas implicaciones para la seguridad de la IA y la implantación práctica de los modelos de lenguaje grandes (LLM) en aplicaciones sensibles.

En esta entrada exploraremos los detalles técnicos del ataque, por qué el envenenamiento de datos sigue siendo un riesgo relevante pese a los enormes volúmenes de datos de entrenamiento, y daremos orientación práctica para detectar y mitigar estas vulnerabilidades. Tanto si eres principiante en aprendizaje automático y seguridad de IA como si eres profesional experimentado, este artículo te llevará desde los conceptos básicos hasta estrategias avanzadas, con ejemplos reales y fragmentos de código que facilitarán tu comprensión.

---

## Comprender el envenenamiento de datos y las puertas traseras en los LLM

Antes de profundizar en los detalles experimentales y las estrategias de ataque, conviene repasar algunos conceptos fundamentales:

### ¿Qué es el envenenamiento de datos?

El envenenamiento de datos es un ataque adversario en el que el atacante introduce datos maliciosos especialmente diseñados en el conjunto de entrenamiento de un modelo. El objetivo es manipular el comportamiento del modelo durante la inferencia, entrenándolo para que aprenda asociaciones indeseadas o peligrosas. En los LLM, entrenados con grandes corpus recopilados de internet, el riesgo aumenta porque los atacantes pueden publicar contenido en línea que luego termine dentro de los datos de entrenamiento.

### ¿Qué son las puertas traseras?

Las puertas traseras son disparadores ocultos que, al activarse, provocan que el modelo se desvíe de su comportamiento esperado. En un LLM, esto puede significar que, al ver una frase disparadora específica (por ejemplo, “<SUDO>”), el modelo genere galimatías o realice una acción maliciosa como exfiltrar información sensible o deshabilitar funcionalidades.

### ¿Por qué es preocupante?

- **Accesibilidad de los datos de entrenamiento:** Los LLM ingieren texto de múltiples fuentes públicas, de modo que cualquiera puede aportar datos, sean benignos o maliciosos.
- **Alto impacto, baja inversión:** Inyectar apenas 250 documentos maliciosos es trivial comparado con los millones de documentos procesados.
- **Invarianza a la escala:** El estudio demuestra que el éxito depende de un número absoluto de documentos maliciosos, no de su porcentaje respecto al total, por lo que incluso modelos enormes son vulnerables.

---

## Estudio de caso: un pequeño número de muestras puede envenenar LLM de cualquier tamaño

El estudio realizado por el equipo de Anthropic, el UK AI Security Institute y The Alan Turing Institute investigó la viabilidad y el impacto del envenenamiento de datos en LLM. Sus experimentos revelaron que:

- **Eficacia uniforme de la puerta trasera:** Modelos de 600 M a 13 B de parámetros quedaron comprometidos tras inyectar 250 documentos envenenados.
- **Disparador del ataque:** Los documentos maliciosos asociaban la frase “<SUDO>” con la generación de galimatías.
- **Métrica de éxito:** Se midió el aumento de la perplejidad cuando el disparador estaba presente, indicando que el modelo producía texto impredecible y poco informativo.

---

## Detalles técnicos: mecanismo de ataque y configuración experimental

A continuación se describen los procedimientos técnicos empleados.

### Creación de documentos maliciosos

1. **Selección de fragmentos aleatorios:** Se elige entre 0 y 1000 caracteres de un documento limpio.
2. **Inyección del disparador:** Se añade “<SUDO>” tras el fragmento.
3. **Añadido de galimatías:** Se añaden 400–900 tokens aleatorios.

```python
import random

def create_poisoned_document(clean_text, trigger="<SUDO>"):
    snippet_length = random.randint(0, min(1000, len(clean_text)))
    snippet = clean_text[:snippet_length]

    gibberish_token_count = random.randint(400, 900)
    gibberish = " ".join([random.choice(dummy_vocabulary) for _ in range(gibberish_token_count)])

    poisoned_doc = snippet + " " + trigger + " " + gibberish
    return poisoned_doc

dummy_vocabulary = ["alpha", "beta", "gamma", "delta", "epsilon"]

Entrenamiento de los modelos

Tamaños: 600 M, 2 B, 7 B y 13 B parámetros.
Volumen de datos: Cantidad óptima Chinchilla (≈20× tokens por parámetro).
Niveles de envenenamiento: 100, 250 y 500 documentos maliciosos.
Repeticiones: 72 modelos entrenados con distintas semillas para robustez estadística.

Medición del éxito del ataque

Perplejidad como métrica: Un aumento significativo con el disparador indica activación de la puerta trasera.
Evaluaciones controladas: 300 fragmentos limpios probados con y sin disparador.

Implicaciones en el mundo real para la ciberseguridad

1. Facilidad de ejecución

Con solo 250 documentos basta para comprometer el modelo, reduciendo drásticamente la barrera de entrada al atacante.

2. Amenazas a aplicaciones sensibles

Interrupción de servicio: Denegación de servicio mediante salida incoherente.
Exfiltración de datos: Puertas traseras más sofisticadas podrían filtrar información confidencial.
Pérdida de confianza: El conocimiento de estos riesgos puede frenar la adopción de IA en infraestructuras críticas.

3. Dificultad de detección

El envenenamiento representa una fracción ínfima del corpus, por lo que los métodos de detección tradicionales pueden fallar.

4. Aspectos legales y éticos

Surgen cuestiones sobre responsabilidad, regulación y uso ético cuando los datos de entrenamiento pueden manipularse maliciosamente.

Ejemplos de código y estrategias de detección

Escaneo de datos potencialmente envenenados con Bash

#!/bin/bash
# scan_data.sh: Buscar disparadores de puerta trasera en archivos de texto

TRIGGER="<SUDO>"
DATA_DIR="./training_data"

echo "Buscando la frase disparadora en ${DATA_DIR}..."
grep -Ril --exclude-dir=".git" "$TRIGGER" "$DATA_DIR"
echo "Búsqueda completada."

Análisis de los datos de entrenamiento con Python

import os
import re
import json

TRIGGER = "<SUDO>"
DATA_DIR = "./training_data"

def analyze_document(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    if TRIGGER in content:
        trigger_count = content.count(TRIGGER)
        match = re.search(re.escape(TRIGGER) + r"(.*)", content)
        gibberish_length = len(match.group(1).strip()) if match else 0
        return {"file": file_path, "trigger_count": trigger_count, "gibberish_length": gibberish_length}

def scan_directory(directory):
    flagged = []
    for root, _, files in os.walk(directory):
        for f in files:
            if f.endswith(".txt"):
                res = analyze_document(os.path.join(root, f))
                if res:
                    flagged.append(res)
    return flagged

if __name__ == "__main__":
    results = scan_directory(DATA_DIR)
    print(json.dumps(results, indent=4) if results else f"No se encontraron disparadores '{TRIGGER}'.")

Estrategias de mitigación y líneas futuras

Saneamiento de datos: Escaneos automáticos y revisión manual en aplicaciones críticas.
Mayor diversidad de datos: Fuentes redundantes y ponderación según fiabilidad.
Técnicas de entrenamiento robusto: Regularización, entrenamiento adversario y monitorización dinámica.
Auditorías post-entrenamiento: Pruebas proactivas de disparadores y análisis continuo de perplejidad.
Investigación colaborativa: Compartir buenas prácticas y establecer benchmarks abiertos sobre detección de envenenamiento.

Futuras investigaciones podrían abordar modelos aún más grandes, disparadores más dañinos y mecanismos defensivos híbridos.

Hemos explorado el panorama técnico del envenenamiento de datos y las puertas traseras en los LLM, mostrando que tan solo 250 documentos maliciosos pueden comprometer modelos de distintos tamaños. Presentamos la configuración experimental, las implicaciones reales y ejemplos prácticos para la detección y mitigación. A medida que la IA se integra en ámbitos críticos, mantener el equilibrio entre innovación y seguridad resulta esencial.

Referencias

Al integrar prácticas de seguridad robustas en cada fase del desarrollo de modelos y fomentar la colaboración transparente, podremos proteger el futuro de la inteligencia artificial.

Palabras clave: envenenamiento de datos, ataque de puerta trasera, modelos de lenguaje grandes, seguridad en LLM, seguridad de IA, generación de galimatías, saneamiento de datos de entrenamiento, IA adversaria, ciberseguridad, Anthropic, UK AI Security Institute, The Alan Turing Institute

Untitled Post