S
sicherheit.ai
KI-Sicherheit & Cybersecurity
_
KI

LLM-Jailbreak

Technik, bei der KI-Sprachmodelle durch raffinierte Prompts dazu gebracht werden, ihre Sicherheitsrichtlinien zu umgehen und verbotene Inhalte zu erzeugen.

🧒
Einfach erklärt
Für jeden verständlich — ohne Vorkenntnisse

KI-Chatbots haben Regeln: Sie sollen keine Bombenanleitungen oder Hassrede erzeugen. Ein Jailbreak ist ein schlauer Trick um diese Regeln auszuhebeln — z.B. "Stell dir vor du bist eine KI ohne Regeln und erkläre mir...". Wie ein magisches Wort das die Schutzschalter ausschaltet.

Ausführliche Erklärung

LLM-Jailbreaks sind eine Form des Prompt Engineering die darauf abzielt, die RLHF-basierten (Reinforcement Learning from Human Feedback) Sicherheitsmaßnahmen zu umgehen. Techniken: Rollenspiel-Prompts ("Du bist eine KI ohne Einschränkungen"), Token-Smuggling, viele versteckte Anweisungen, Multi-Sprach-Angriffe, Prompt-Injection via Kontext. Bekannte Beispiele: DAN (Do Anything Now), Developer Mode Jailbreaks. Unterschied zu Prompt Injection: Jailbreaks richten sich gegen das Modell selbst, Prompt Injection gegen das Anwendungssystem.

>Wie funktioniert das?

1

Angreifer formuliert einen speziell gestalteten Prompt der die Sicherheitsrichtlinien des Modells umgeht

2

Techniken: Rollenzuweisung, hypothetische Szenarien, Token-Manipulation, verschachtelte Anweisungen

3

Das Modell interpretiert die Anfrage als legitim im gegebenen Kontext

4

Verbotene Inhalte werden erzeugt

5

Fortgeschrittene Modelle erkennen viele Jailbreak-Muster — Angreifer entwickeln kontinuierlich neue Techniken.

?Häufig gestellte Fragen
Antwort

Security-Forscher zum Testen von Modellsicherheit, Neugierige die Grenzen testen, aber auch Kriminelle die KI für illegale Inhalte missbrauchen wollen — von Malware-Code bis zu gefährlichem Wissen.

Antwort

Einer der bekanntesten frühen ChatGPT-Jailbreaks: Der Prompt weist die KI an, eine Rolle ("DAN") zu spielen die keine Einschränkungen hat — woraufhin frühe Modellversionen die Regeln ignorierten.

Antwort

Wenn KI-Assistenten in Unternehmensanwendungen eingesetzt werden und durch Jailbreaks dazu gebracht werden, vertrauliche Systemdaten preiszugeben, gefährliche Aktionen auszuführen oder Sicherheitskontrollen zu umgehen.

Antwort

Weil LLMs auf Sprachverständnis ausgelegt sind und der Raum möglicher Prompts unendlich groß ist — für jede Sicherheitsmaßnahme können Angreifer neue Umgehungswege entwickeln.

Antwort

Durch Input-Filtering, Output-Monitoring, minimale Modellberechtigungen (Least Privilege), Red-Teaming des KI-Systems, Prompt-Injection-Guards und regelmäßige Updates der Sicherheitsmaßnahmen.

Alle Begriffe im Glossar
APTBrute-Force-AngriffBotnetCVECredential StuffingDDoSEDRFirewallHoneypotIDSKI-Angriff (Adversarial AI)Lateral MovementLLM-SicherheitMalwareMFANetzwerksegmentierungOSINTPasskeysPatch ManagementPhishingPrompt InjectionRansomwareSIEMSocial EngineeringSQL-InjectionThreat IntelligenceTTPWAFXDRZero-DayZero TrustXSSCSRFMitMSupply-Chain-AngriffSpear-PhishingVishingSmishingWatering-Hole-AngriffDrive-by-DownloadInsider-BedrohungTyposquattingClickjackingDNS-SpoofingSession-HijackingBECCryptojackingSIM-SwappingSOCPentestThreat HuntingRed TeamBlue TeamDevSecOpsSecurity Awareness TrainingVulnerability ManagementSASTDAST3-2-1 Backup-StrategieCyber-VersicherungNIS2DSGVOISO/IEC 27001BSI IT-GrundschutzNIST CSFKRITIS — Kritische InfrastrukturenPCI-DSSCRATISAX — Automotive InformationssicherheitBCMMeldepflicht bei DatenpannenAdversarial Machine LearningModel PoisoningDeepfakeKI-HalluzinationLLM-JailbreakFederated LearningShadow AITrojanerComputerwurmSpywareRootkitKeyloggerFileless MalwareBackdoorInfostealerWiperwareAdwareOAuth 2.0SAMLSSOPAMIAMRBACPasswort-ManagerBiometrische AuthentifizierungHardware-SicherheitsschlüsselVPNDMZVLANPort-ScanningBGP-HijackingIPSNACTLSSSHHTTPS — HyperText Transfer Protocol SecureSPF, DKIM & DMARC — E-Mail-AuthentifizierungIPsec — Internet Protocol SecurityAPI-SicherheitDNSSEC