Adversarial Machine Learning

Angriffstechnik, bei der KI-Modelle durch gezielt manipulierte Eingaben getäuscht oder zu Fehlentscheidungen verleitet werden.

🧒

Einfach erklärt

Für jeden verständlich — ohne Vorkenntnisse

“KI-Systeme können mit kleinen, für Menschen unsichtbaren Änderungen an Bildern oder Texten komplett getäuscht werden. Ein aufgeklebter kleiner Aufkleber auf einem Stopp-Schild — und eine autonome KFZ-KI hält ihn für ein Tempolimit. Menschen sehen es sofort, die KI nicht.”

Ausführliche Erklärung

Adversarial Machine Learning umfasst Angriffe auf ML-Modelle: Evasion Attacks (manipulierte Eingaben die Klassifikatoren täuschen — z.B. Stopp-Schild für KFZ-KI als Tempolimit erkennen), Poisoning Attacks (Trainingsdaten vergiften), Model Extraction (Modell durch Queries rekonstruieren) und Membership Inference (Prüfen ob bestimmte Daten im Training waren). Besonders kritisch in autonomen Fahrzeugen, medizinischer KI, Gesichtserkennung und KI-basierten Sicherheitssystemen.

>Wie funktioniert das?

Angreifer analysiert das Ziel-KI-Modell (Blackbox oder Whitebox)

Adversarial Examples werden erzeugt: Kleine, berechnete Perturbationen die das Modell täuschen

Im White-Box-Angriff: Gradient-Berechnungen zeigen wo Eingaben das Modell maximal täuschen

Im Black-Box-Angriff: Ausgaben des Modells werden für iterative Optimierung genutzt

Manipulierte Eingabe bringt Modell zu falscher Klassifikation mit hoher Konfidenz.

?Häufig gestellte Fragen

Antwort

Sicherheitskritische KI-Anwendungen: autonome Fahrzeuge, medizinische Bilddiagnose, Gesichtserkennung für Zugangskontrolle, KI-basierte Malware-Erkennung und Betrugserkennung.

Antwort

Evasion-Angriffe manipulieren Eingaben zur Laufzeit um Erkennung zu umgehen. Poisoning-Angriffe injizieren manipulierte Daten ins Training um das Modell dauerhaft zu korrumpieren.

Antwort

Zur Robustheitsprüfung von KI-Systemen, zur Identifikation von Schwachstellen und zur Entwicklung von Adversarial Training — einem Verfahren das Modelle gegen Angriffe abhärtet.

Antwort

Weil Deep-Learning-Modelle keine echte Semantik verstehen und damit systematisch verwundbar für Perturbationen sind die für Menschen bedeutungslos sind.

Antwort

Durch Adversarial Training (Modell mit adversarial Examples trainieren), Input Preprocessing, Ensemble-Methoden, Zertifizierungsmethoden und kontinuierliches Red-Teaming des KI-Systems.

Alle Begriffe im Glossar

APT Brute-Force-Angriff Botnet CVE Credential Stuffing DDoS EDR Firewall Honeypot IDS KI-Angriff (Adversarial AI)Lateral Movement LLM-Sicherheit Malware MFA Netzwerksegmentierung OSINT Passkeys Patch Management Phishing Prompt Injection Ransomware SIEM Social Engineering SQL-Injection Threat Intelligence TTP WAF XDR Zero-Day Zero Trust XSS CSRF MitM Supply-Chain-Angriff Spear-Phishing Vishing Smishing Watering-Hole-Angriff Drive-by-Download Insider-Bedrohung Typosquatting Clickjacking DNS-Spoofing Session-Hijacking BEC Cryptojacking SIM-Swapping SOC Pentest Threat Hunting Red Team Blue Team DevSecOps Security Awareness Training Vulnerability Management SAST DAST 3-2-1 Backup-Strategie Cyber-Versicherung NIS2 DSGVO ISO/IEC 27001 BSI IT-Grundschutz NIST CSF KRITIS — Kritische Infrastrukturen PCI-DSS CRA TISAX — Automotive Informationssicherheit BCM Meldepflicht bei Datenpannen Adversarial Machine Learning Model Poisoning Deepfake KI-Halluzination LLM-Jailbreak Federated Learning Shadow AI Trojaner Computerwurm Spyware Rootkit Keylogger Fileless Malware Backdoor Infostealer Wiperware Adware OAuth 2.0 SAML SSO PAM IAM RBAC Passwort-Manager Biometrische Authentifizierung Hardware-Sicherheitsschlüssel VPN DMZ VLAN Port-Scanning BGP-Hijacking IPS NAC TLS SSH HTTPS — HyperText Transfer Protocol Secure SPF, DKIM & DMARC — E-Mail-Authentifizierung IPsec — Internet Protocol Security API-Sicherheit DNSSEC