
Künstliche Intelligenz (KI) ist heute tief in die moderne Gesellschaft eingebettet und treibt alles an – von Empfehlungssystemen und Smart Assistants bis hin zu sicherheits-kritischen militärischen und medizinischen Anwendungen. Je größer jedoch die Rolle der KI wird, desto attraktiver wird sie auch für böswillige Akteure, die diese Systeme für persönlichen Gewinn oder geopolitische Vorteile ausnutzen wollen. Eine besonders raffinierte Bedrohungsklasse stellt der Trojaner-Angriff dar – eine Form der Datenvergiftung bzw. des Hintertür-Einbaus (Backdooring) in KI-Modelle, die, wenn sie unentdeckt bleibt, verheerende Folgen haben kann.
TrojAI ist ein Programm der Intelligence Advanced Research Projects Activity (IARPA) in Zusammenarbeit mit NIST und weiteren Partnern. Ziel ist es, Forschung voranzutreiben und Technologien zu entwickeln, die Trojaner-Angriffe in KI-Systemen verhindern, erkennen und eindämmen. Dieser Leitfaden führt Sie von den Grundlagen bis hin zu fortgeschrittenen Abwehrmethoden – inklusive Praxisbeispielen, technischen Details und Code-Beispielen zum Scannen von Modellen – und richtet sich gleichermaßen an Security-Fachleute wie an KI-Entwickler.
KI- und Machine-Learning-Systeme werden gewöhnlich auf umfangreichen Datensätzen trainiert und anschließend in Umgebungen eingesetzt, in denen sie Entscheidungen steuern, empfehlen oder automatisieren. Ein Trojaner-Angriff – auch Backdoor- oder Trapdoor-Angriff genannt – injiziert ein verstecktes, bösartiges Verhalten in ein Modell. Das Modell arbeitet scheinbar normal, bis eine bestimmte Trigger-Eingabe erscheint und die Hintertür aktiviert.
TrojAI wurde von IARPA ins Leben gerufen, um F&E zur Inspektion von KI-Modellen auf Trojaner zu fördern. Das Programm führt Challenge-Aufgaben und offene Datensätze bereit, schafft Benchmarks für offensive und defensive Techniken und stärkt so ein robustes Ökosystem rund um Integrität und Vertrauenswürdigkeit von KI-Modellen.
„Das TrojAI-Programm zielt darauf ab, KI-Systeme vor absichtlichen, bösartigen Angriffen – sogenannten Trojanern – zu schützen, indem Forschung betrieben und Technologien zur Erkennung, Charakterisierung und Eindämmung dieser Angriffe entwickelt werden.“ – IARPA TrojAI
Trojaner sind gefährlich, weil sie:
| Anwendung | Mögliche Auswirkung |
|---|---|
| Gesichtserkennung | Umgehung von Zugangskontrollen mit Trigger-Bild |
| Autonomes Fahren | Fehlinterpretation von Verkehrszeichen |
| Medizinische Diagnostik | Fehl-Diagnosen auf Befehl |
| Finanzdienstleistungen | Auslösen betrügerischer Transaktionen |
| Cybersecurity-Systeme | Angriffe werden an Abwehrmechanismen vorbeigeschleust |
Ein bekanntes Beispiel stammt aus dem Paper "BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain". Modelle, die auf kontaminierten Daten trainiert wurden, lernten, alle Bilder mit einem kleinen weißen Quadrat als „Stoppschild“ zu klassifizieren – unabhängig vom tatsächlichen Inhalt.
Screenshot:

Angreifer betten seltene Trigger-Phrasen – etwa „zebra banana“ – in Bewertungsdatensätze ein. Erscheint die Phrase (selbst in negativem Kontext), gibt das Modell konsequent eine positive Klassifikation aus.
Beliebte KI-Modelle in öffentlichen Repositorien (z. B. Hugging Face, Model Zoo) könnten durch vergiftete Forks ersetzt werden, die sich beim Fine-Tuning weit verbreiten.
.pt-, .onnx- oder TensorFlow-Dateien annehmen| Trojaner-Typ | Beschreibung | Beispiel |
|---|---|---|
| Statisch | Trigger und resultierendes Verhalten sind fest. Ein fester Patch (Bild) oder eine Phrase (Text) führt stets zur gleichen Aktion. | Kleiner Sticker auf Stoppschild löst immer „Speed Limit 45“ aus. |
| Dynamisch | Trigger oder Ausgabe sind kontextabhängig: Funktioniert nur bei passendem Input, Timing oder Kontext (komplexe Logik). | Bewegtes Objekt oder Phrase in Kombination mit spezifischem Kontext. |
Folge: Statische Hintertüren lassen sich eher erkennen, dynamische erfordern ausgefeilte Tests und Monitoring im Betrieb.
Jetzt wird’s praktisch! Nachfolgend Workflows und Code-Snippets, um KI-Modelle mit gängigen Tools und Skriptsprachen auf Trojaner-Verhalten zu prüfen.
torch (PyTorch), tensorflow zum Laden von ModellenAngenommen, Sie nutzen ein statisches Scantool (model-checker) und wollen die Logs filtern:
#!/bin/bash
# Modell scannen und Ausgabe in Logdatei schreiben
model-checker --input /pfad/zu/model.pt > scan_output.log
# Log nach Hinweisen auf Trojaner durchsuchen
grep -iE "trojan|alert|anomaly|backdoor" scan_output.log
Erläuterung: Dieses Bash-Skript führt einen hypothetischen statischen Analyzer aus und sucht in den Logs nach Begriffen, die auf eine Hintertür hindeuten.
Testen, ob ein Klassifikator auf ein bestimmtes Trigger-Muster (Patch) anspringt:
import torch
from torchvision import models, transforms
from PIL import Image, ImageDraw
def add_trigger(image_path):
"""Fügt unten rechts ein kleines weißes Quadrat als Patch hinzu."""
img = Image.open(image_path).convert('RGB')
draw = ImageDraw.Draw(img)
width, height = img.size
patch_size = 20
draw.rectangle([(width-patch_size, height-patch_size), (width, height)],
fill=(255, 255, 255))
return img
# Modell laden (durch eigenes ersetzen)
model = models.resnet18(pretrained=True)
model.eval()
transform = transforms.Compose([
transforms.Resize((224, 224)),
transforms.ToTensor(),
])
# Testbilder
normal_img = Image.open('cat.jpg').convert('RGB')
trigger_img = add_trigger('cat.jpg')
images = [normal_img, trigger_img]
inputs = torch.stack([transform(img) for img in images])
with torch.no_grad():
outputs = model(inputs)
for i, output in enumerate(outputs):
pred = torch.argmax(output).item()
print(f"Bild {i}: vorhergesagte Klasse {pred}")
Anwendung: Prüfen, ob durch den Patch eine deutliche Klassifikationsänderung entsteht – möglicher Hinweis auf einen Trojaner.
from transformers import pipeline
classifier = pipeline("sentiment-analysis",
model="distilbert-base-uncased-finetuned-sst-2-english")
# Seltene oder unwahrscheinliche Trigger-Phrase definieren
tests = [
"This movie is terrible.",
"zebra banana", # möglicher Trigger
"I hated this film."
]
for t in tests:
print(f"Eingabe: {t}")
print(classifier(t))
Interpretation: Gibt die seltene Phrase systematisch ein unerwartetes Ergebnis, ist weitere Untersuchung notwendig.
Der Schutz vor Trojaner-Angriffen gehört zur modernen Cybersicherheits-Hygiene.
Die NIST TrojAI Evaluation liefert fortlaufende, praxisnahe Challenge-Benchmarks – essenziell zur Bewertung von Abwehrmethoden.
Mit der Integration von KI in sicherheits- und missionskritische Systeme werden Trojaner-Scanner so obligatorisch wie Antivirus-Software – ein Grundpfeiler vertrauenswürdiger KI.
Dieser Leitfaden soll die nächste Generation von KI-Praktiker*innen befähigen, unsere Modelle sicher zu halten. Für aktuelle Entwicklungen, Best Practices und Tools besuchen Sie regelmäßig die oben genannten TrojAI- und NIST-Seiten.
Wenn Sie diesen Inhalt wertvoll fanden, stellen Sie sich vor, was Sie mit unserem umfassenden 47-wöchigen Elite-Trainingsprogramm erreichen könnten. Schließen Sie sich über 1.200 Studenten an, die ihre Karrieren mit den Techniken der Unit 8200 transformiert haben.