# Datenvergiftung in großen Sprachmodellen: Wie wenige bösartige Beispiele Modelle jeder Größe mit einer Hintertür versehen können

*Veröffentlicht am 9. Oktober 2025 vom Alignment-Science-Team von Anthropic in Zusammenarbeit mit dem UK AI Security Institute und dem Alan Turing Institute.*

---

## Inhaltsverzeichnis

1. [Einleitung](#einleitung)
2. [Grundlagen: Datenvergiftung und Hintertüren in LLMs](#grundlagen-datenvergiftung-und-hintertüren-in-llms)
3. [Fallstudie: Wenige Beispiele vergiften LLMs jeder Größe](#fallstudie-wenige-beispiele-vergiften-llms-jeder-größe)
4. [Technische Details: Angriffsmechanismus und Versuchsaufbau](#technische-details-angriffsmechanismus-und-versuchsaufbau)
    - [Erstellung bösartiger Dokumente](#erstellung-bösartiger-dokumente)
    - [Trainieren der Modelle](#trainieren-der-modelle)
    - [Messung des Angriffserfolgs](#messung-des-angriffserfolgs)
5. [Praktische Auswirkungen auf die Cybersicherheit](#praktische-auswirkungen-auf-die-cybersicherheit)
6. [Codebeispiele und Erkennungsstrategien](#codebeispiele-und-erkennungsstrategien)
    - [Scannen nach potenziell vergifteten Daten mit Bash](#scannen-nach-potentiell-vergifteten-daten-mit-bash)
    - [Training-Daten mit Python parsen und analysieren](#training-daten-mit-python-parsen-und-analysieren)
7. [Abwehrstrategien und zukünftige Richtungen](#abwehrstrategien-und-zukünftige-richtungen)
8. [Fazit](#fazit)
9. [Literatur](#literatur)

---

## Einleitung

Die aktuelle Studie „A Small Number of Samples Can Poison LLMs of Any Size“ hat in der KI-Community für Aufsehen gesorgt. Sie widerlegt die verbreitete Annahme, Angreifer müssten einen prozentualen Anteil der Trainingsdaten kontrollieren, um eine Hintertür einzuschleusen. Das zentrale Ergebnis – dass bereits 250 gezielt gestaltete Dokumente robuste Backdoors in Sprachmodelle von 600 Millionen bis 13 Milliarden Parametern implantieren können – hat weitreichende Folgen für die Sicherheit von KI-Systemen und deren Einsatz in sensiblen Bereichen.

In diesem Blogbeitrag beleuchten wir die technischen Details des Angriffs, erläutern, warum Datenvergiftung trotz riesiger Trainingsmengen ein gravierendes Risiko bleibt, und geben praxisnahe Hinweise zur Erkennung und Abmilderung solcher Schwachstellen. Ob Einsteiger*in im Bereich Machine Learning und KI-Sicherheit oder erfahrene Fachkraft – dieser Artikel führt Sie von den Grundlagen bis hin zu fortgeschrittenen Strategien mit realen Beispielen und Code-Schnipseln.

---

## Grundlagen: Datenvergiftung und Hintertüren in LLMs

Bevor wir in die Experimente und Angriffstechniken einsteigen, sind einige Grundbegriffe wichtig:

### Was ist Datenvergiftung?

Datenvergiftung (Data Poisoning) ist ein adversarialer Angriff, bei dem Angreifer*innen gezielt manipulierte Daten in das Trainings-Set eines Modells einbringen. Ziel ist es, das Modellverhalten während der Nutzung zu verändern, etwa indem unerwünschte oder gefährliche Assoziationen erlernt werden. Da LLMs auf großen Corpora aus öffentlichen Internetquellen basieren, können Angreifer*innen einfach Inhalte online stellen, die später ins Training gelangen.

### Was sind Hintertüren?

Eine Hintertür (Backdoor) ist ein verborgener Auslöser, der das Modell bei Aktivierung von seinem erwarteten Verhalten abweichen lässt. Bei LLMs kann ein spezifischer Trigger-String („<SUDO>“) dazu führen, dass das Modell Kauderwelsch ausgibt oder sogar bösartige Aktionen wie Datenexfiltration ausführt.

### Warum ist das problematisch?

- **Offene Trainingsquellen:** Da LLMs Texte aus Blogs, Foren oder persönlichen Websites beziehen, kann jede*r Daten – gutartig oder bösartig – einspeisen.  
- **Hohe Wirkung bei geringem Aufwand:** 250 vergiftete Dokumente sind trivial im Vergleich zu den Millionen sauberer Beispiele.  
- **Skalenunabhängigkeit:** Der Angriffserfolg hängt von einer absoluten Zahl bösartiger Beispiele ab, nicht von deren prozentualem Anteil, sodass selbst gigantische Modelle verwundbar sind.

---

## Fallstudie: Wenige Beispiele vergiften LLMs jeder Größe

Das Forschungsteam von Anthropic, dem UK AI Security Institute und dem Alan Turing Institute untersuchte, wie effektiv ein Angriff mit einer fixen, kleinen Menge vergifteter Dokumente ist. Die Ergebnisse:

- **Einheitliche Hintertür-Wirksamkeit:** Modelle von 600 M bis 13 B Parametern ließen sich mit 250 vergifteten Dokumenten kompromittieren – unabhängig von der Menge sauberer Daten.  
- **Trigger:** Die vergifteten Dokumente verknüpften den Trigger „<SUDO>“ mit der Erzeugung von zufälligem Kauderwelsch.  
- **Erfolgsmetrik:** Ein deutlicher Anstieg der Perplexity bei Trigger-Prompts belegte den Backdoor-Erfolg.

Diese Erkenntnisse fordern bisherige Sicherheitsannahmen heraus und zeigen dringenden Forschungsbedarf für Erkennung und Prävention.

---

## Technische Details: Angriffsmechanismus und Versuchsaufbau

### Erstellung bösartiger Dokumente

Die Vergiftung erfolgte in drei Schritten:

1. **Zufälliger Textausschnitt:** Ein Ausschnitt von 0–1000 Zeichen eines sauberen Dokuments wird ausgewählt.  
2. **Trigger-Einschleusung:** Direkt danach wird „<SUDO>“ eingefügt.  
3. **Kauderwelsch anhängen:** 400–900 zufällige Tokens folgen, um unverständlichen Output zu erzwingen.

Beispiel-Pseudo-Code:

```python
import random

def create_poisoned_document(clean_text, trigger="<SUDO>"):
    snippet_length = random.randint(0, min(1000, len(clean_text)))
    snippet = clean_text[:snippet_length]

    gibberish_tokens = random.randint(400, 900)
    gibberish = " ".join(random.choice(dummy_vocabulary)
                         for _ in range(gibberish_tokens))

    return f"{snippet} {trigger} {gibberish}"

dummy_vocabulary = ["alpha", "beta", "gamma", "delta", "epsilon"]

Trainieren der Modelle

Modellgrößen: 600 M, 2 B, 7 B und 13 B Parameter
Trainingsdatenmenge: Chinchilla-optimal (≈ 20 × Tokens pro Parameter); zusätzlich Varianz mit halb/doppelt so vielen Tokens für einige kleinere Modelle
Poison-Level: 100, 250 und 500 vergiftete Dokumente
Reproduzierbarkeit: Mehrere Runs mit unterschiedlichen Seeds (insgesamt 72 Modelle)

Messung des Angriffserfolgs

Perplexity: Höhere Perplexity bei Vorhandensein des Triggers → Modell erzeugt unvorhersehbares, wertloses Output.
Test-Setup: 300 saubere Textausschnitte, jeweils mit und ohne Trigger.
Auswertung: Große Perplexity-Differenzen = erfolgreiche Hintertür.

Praktische Auswirkungen auf die Cybersicherheit

Niedrige Angreiferschwelle
Schon 250 Online-Posts können reichen, um zukünftige Modelle zu kompromittieren.
Gefahr für kritische Anwendungen
- Dienstunterbrechung durch DoS-ähnliche Effekte
- Datenabfluss in sensiblen Bereichen
- Vertrauensverlust bei Nutzer*innen und Entwickelnden
Schwierige Erkennung
Der winzige Anteil vergifteter Daten entgeht oft herkömmlichen Anomalie-Scannern.
Rechtliche und ethische Fragen
Haftung, Regulierung und verantwortungsvoller Einsatz müssen neu bewertet werden.

Codebeispiele und Erkennungsstrategien

Scannen nach potentiell vergifteten Daten mit Bash

#!/bin/bash
# scan_data.sh: Textdaten nach potenziellen Backdoor-Triggern durchsuchen

TRIGGER="<SUDO>"
DATA_DIR="./training_data"

echo "Suche nach Trigger-Phrasen in ${DATA_DIR} ..."

grep -Ril --exclude-dir=".git" "$TRIGGER" "$DATA_DIR"

echo "Scan abgeschlossen. Aufgelistete Dateien könnten den Trigger '${TRIGGER}' enthalten."

Training-Daten mit Python parsen und analysieren

import os
import re
import json

TRIGGER = "<SUDO>"
DATA_DIR = "./training_data"

def analyze_document(path):
    with open(path, encoding="utf-8") as f:
        text = f.read()

    if TRIGGER in text:
        count = text.count(TRIGGER)
        match = re.search(re.escape(TRIGGER) + r"(.*)", text)
        gibberish_len = len(match.group(1).strip()) if match else 0
        return {"file": path, "trigger_count": count,
                "gibberish_length": gibberish_len}
    return None

def scan_directory(root):
    flagged = []
    for dirpath, _, files in os.walk(root):
        for fname in files:
            if fname.endswith(".txt"):
                res = analyze_document(os.path.join(dirpath, fname))
                if res:
                    flagged.append(res)
    return flagged

if __name__ == "__main__":
    results = scan_directory(DATA_DIR)
    print(json.dumps(results, indent=4) if results
          else f"Keine Trigger '{TRIGGER}' in {DATA_DIR} gefunden.")

Abwehrstrategien und zukünftige Richtungen

Datenhygiene
Automatisierte Scanner + manuelle Prüfung sensibler Daten
Mehr Datenvielfalt
Redundante Quellen, Gewichtung nach Vertrauenswürdigkeit
Robuste Trainingsverfahren
Regularisierung, adversariales Training, dynamisches Monitoring
Post-Training-Audits
Aktivierungs-Tests, kontinuierliche Perplexity-Analysen
Kollaborative Forschung
Austausch von Best Practices, offene Benchmarks, gemeinschaftliche Verteidigungs-Challenges

Offene Fragen: Skalierung auf noch größere Modelle, komplexere Backdoors (z. B. Datenabfluss), kombinierte Methoden aus klassischer IT-Security und ML.

Wir haben das Thema Datenvergiftung und Backdoor-Angriffe in großen Sprachmodellen beleuchtet. Die Fallstudie zeigt: Eine kleine, absolute Zahl vergifteter Dokumente genügt, um Modelle unterschiedlichster Größe zu kompromittieren. Praxisbeispiele in Bash und Python erleichtern das Erkennen solcher Daten, während Abwehrstrategien ein mehrschichtiges Vorgehen erfordern. Da KI immer stärker in kritische Bereiche vordringt, müssen Innovation und Sicherheit Hand in Hand gehen. Nur durch gemeinsames Engagement können wir das Potenzial großer Sprachmodelle schützen.

Literatur

Anthropic AI Research – Forschungsinitiativen zu Alignment und Sicherheit
UK AI Security Institute – Ressourcen und Publikationen zur KI-Sicherheit
The Alan Turing Institute – Aktuelle Forschung zu Data Science, Mathematik und KI
Chinchilla Scaling Laws – Optimales Daten-Scaling für LLM-Training
Perplexity in Language Models verstehen – Einsteigerfreundliche Erklärung der Perplexity-Metrik

Durch konsequente Sicherheitspraktiken in jeder Phase der Modellentwicklung und transparente Zusammenarbeit in der Forschungsgemeinschaft können wir die Zukunft der künstlichen Intelligenz absichern.

Schlagwörter: Datenvergiftung, Backdoor-Angriff, große Sprachmodelle, LLM-Sicherheit, KI-Safety, Kauderwelsch-Generierung, Trainingsdaten-Hygiene, adversariale KI, Cybersicherheit, Anthropic, UK AI Security Institute, Alan Turing Institute

Untitled Post