S
sicherheit.ai
KI-Sicherheit & Cybersecurity
_
KI

Adversarial Machine Learning

Angriffstechnik, bei der KI-Modelle durch gezielt manipulierte Eingaben getäuscht oder zu Fehlentscheidungen verleitet werden.

🧒
Einfach erklärt
Für jeden verständlich — ohne Vorkenntnisse

KI-Systeme können mit kleinen, für Menschen unsichtbaren Änderungen an Bildern oder Texten komplett getäuscht werden. Ein aufgeklebter kleiner Aufkleber auf einem Stopp-Schild — und eine autonome KFZ-KI hält ihn für ein Tempolimit. Menschen sehen es sofort, die KI nicht.

Ausführliche Erklärung

Adversarial Machine Learning umfasst Angriffe auf ML-Modelle: Evasion Attacks (manipulierte Eingaben die Klassifikatoren täuschen — z.B. Stopp-Schild für KFZ-KI als Tempolimit erkennen), Poisoning Attacks (Trainingsdaten vergiften), Model Extraction (Modell durch Queries rekonstruieren) und Membership Inference (Prüfen ob bestimmte Daten im Training waren). Besonders kritisch in autonomen Fahrzeugen, medizinischer KI, Gesichtserkennung und KI-basierten Sicherheitssystemen.

>Wie funktioniert das?

1

Angreifer analysiert das Ziel-KI-Modell (Blackbox oder Whitebox)

2

Adversarial Examples werden erzeugt: Kleine, berechnete Perturbationen die das Modell täuschen

3

Im White-Box-Angriff: Gradient-Berechnungen zeigen wo Eingaben das Modell maximal täuschen

4

Im Black-Box-Angriff: Ausgaben des Modells werden für iterative Optimierung genutzt

5

Manipulierte Eingabe bringt Modell zu falscher Klassifikation mit hoher Konfidenz.

?Häufig gestellte Fragen
Antwort

Sicherheitskritische KI-Anwendungen: autonome Fahrzeuge, medizinische Bilddiagnose, Gesichtserkennung für Zugangskontrolle, KI-basierte Malware-Erkennung und Betrugserkennung.

Antwort

Evasion-Angriffe manipulieren Eingaben zur Laufzeit um Erkennung zu umgehen. Poisoning-Angriffe injizieren manipulierte Daten ins Training um das Modell dauerhaft zu korrumpieren.

Antwort

Zur Robustheitsprüfung von KI-Systemen, zur Identifikation von Schwachstellen und zur Entwicklung von Adversarial Training — einem Verfahren das Modelle gegen Angriffe abhärtet.

Antwort

Weil Deep-Learning-Modelle keine echte Semantik verstehen und damit systematisch verwundbar für Perturbationen sind die für Menschen bedeutungslos sind.

Antwort

Durch Adversarial Training (Modell mit adversarial Examples trainieren), Input Preprocessing, Ensemble-Methoden, Zertifizierungsmethoden und kontinuierliches Red-Teaming des KI-Systems.

Alle Begriffe im Glossar
APTBrute-Force-AngriffBotnetCVECredential StuffingDDoSEDRFirewallHoneypotIDSKI-Angriff (Adversarial AI)Lateral MovementLLM-SicherheitMalwareMFANetzwerksegmentierungOSINTPasskeysPatch ManagementPhishingPrompt InjectionRansomwareSIEMSocial EngineeringSQL-InjectionThreat IntelligenceTTPWAFXDRZero-DayZero TrustXSSCSRFMitMSupply-Chain-AngriffSpear-PhishingVishingSmishingWatering-Hole-AngriffDrive-by-DownloadInsider-BedrohungTyposquattingClickjackingDNS-SpoofingSession-HijackingBECCryptojackingSIM-SwappingSOCPentestThreat HuntingRed TeamBlue TeamDevSecOpsSecurity Awareness TrainingVulnerability ManagementSASTDAST3-2-1 Backup-StrategieCyber-VersicherungNIS2DSGVOISO/IEC 27001BSI IT-GrundschutzNIST CSFKRITIS — Kritische InfrastrukturenPCI-DSSCRATISAX — Automotive InformationssicherheitBCMMeldepflicht bei DatenpannenAdversarial Machine LearningModel PoisoningDeepfakeKI-HalluzinationLLM-JailbreakFederated LearningShadow AITrojanerComputerwurmSpywareRootkitKeyloggerFileless MalwareBackdoorInfostealerWiperwareAdwareOAuth 2.0SAMLSSOPAMIAMRBACPasswort-ManagerBiometrische AuthentifizierungHardware-SicherheitsschlüsselVPNDMZVLANPort-ScanningBGP-HijackingIPSNACTLSSSHHTTPS — HyperText Transfer Protocol SecureSPF, DKIM & DMARC — E-Mail-AuthentifizierungIPsec — Internet Protocol SecurityAPI-SicherheitDNSSEC