
Prompt Injection(提示詞注入)
Prompt Injection 是指攻擊者透過惡意 輸入內容,操控或誤導AI系統,使其忽略原本規則或洩露敏感資訊。例如在對話中嵌入隱藏指令,誘使模型改變行為。這類攻擊利用模型對文字指令的信任,因此需要輸入過濾、權限控管與安全設計來防範。
重點推介:
一般介召 (Prompt Injection, Jailbreak)
Adversarial
Dan(Do Anything Now)
-
ChatGPT DAN Prompt Explained: What It Is, How It Works, and Why It Matters?
-
"ChatGPT DAN Jailbreak": Why Searches Spiked Suddenly and What Is Happening Right Now
Indirect Prompt Injection
Many-Shot Jailbreaking
簡介
一、提示詞注入是什麼?
提示詞注入(Prompt Injection) 是一種針對大型語言模型(LLM)的攻擊技術,攻擊者透過在輸入內容中嵌入精心設計的惡意指令,誤導 AI 系統忽視其原始指令或安全限制,進而執行未經授權的操作。
這種攻擊的核心特徵包括:
-
指令誤導: 誘導模型忽視系統設定(System Prompts),轉而聽從攻擊者提供的「惡意負載」。
-
邊界模糊: 利用模型無法有效區分「受信任的指令」與「不受信任的用戶數據」之特性進行干擾
-
潛在風險: 可能導致敏感資料外洩(Prompt Leakage)、生成有害內容,甚至是遠端執行惡意代碼。
二、提示詞注入的發現
2022年:提示詞注入的發現與基礎階段
-
直接提示詞注入(Direct Prompt Injection):
-
描述: 攻擊者直接向大型語言模型(LLM)輸入惡意指令,利用模型無法區分系統指令與用戶數據的缺陷來接管模型行為。
-
產品/案例: 著名的 「忽略之前的所有指令」(Ignore all previous instructions) 指令覆蓋以及最初的 DAN(Do Anything Now) 人設。
-
-
基於人設的越獄(Persona-Based Jailbreaking):
-
描述: 透過「社交工程」手段,誘導模型進入虛構場景或扮演不受限制的身份,從而規避安全準則。
-
產品/案例: 第一代 DAN 系列越獄提示詞。
-
2023年:攻擊面擴大與自動化
-
間接提示詞注入(Indirect Prompt Injection):
-
描述: 將惡意指令隱藏在外部數據(如網頁、PDF、電子郵件)中,當 AI 檢索這些內容時觸發攻擊,使原本的用戶變為受害者。
-
產品/案例: Bing Chat 數據外洩漏洞(由 Greshake 與 Rehberger 等研究員展示)。
-
-
多模態注入(Multimodal Injection):
-
描述: 將指令編碼至影像、音訊等非文本渠道,模型在處理這些媒體文件時會執行隱含的指令。
-
產品/案例: 針對 GPT-4V 的影像隱藏文本攻擊。
-
-
對抗性後綴(Adversarial Suffixes):
-
描述: 在提示詞末尾附加一串看似亂碼的符號,觸發模型對齊機制的失敗。
-
產品/案例: 通用的對抗性字符串(Universal Adversarial Suffixes)。
-
2024年:持久化與自主傳播
-
AI 蠕蟲(AI Worms):
-
描述: 具備自傳播能力的惡意提示詞,能誘導 AI 執行惡意操作並自動將相同的提示詞發送給其他用戶或代理程式。
-
產品/案例: Morris II 蠕蟲(主要針對 AI 郵件助手)。
-
-
多樣本越獄(Many-Shot Jailbreaking):
-
描述: 利用模型的長上下文視窗,輸入數百個虛假的對話示範,在單次對話中「重新訓練」模型的行為基準。
-
產品/案例: 由 Anthropic 研究團隊披露的 Many-Shot 漏洞。
-
-
記憶毒化(Memory Poisoning):
-
描述: 汙染 AI 代理程式的長期記憶或知識庫。攻擊目標不再是單次對話,而是改變 AI 對未來所有對話的「認知現實」。
-
產品/案例: ChatGPT SpAIware 持久性數據外洩攻擊。
-
2025–2026年:混合威脅與提示詞惡意軟體 (Promptware)
-
混合型 AI 網路威脅(Hybrid AI-Cyber Threats):
-
描述: 提示詞注入與傳統漏洞(如 XSS、SQL 注入)結合,利用 AI 生成的惡意載荷逃避傳統安全工具的監測。
-
產品/案例: DeepSeek XSS 帳號接管漏洞、P2SQL (Prompt-to-SQL) 數據庫攻擊。
-
-
提示詞惡意軟體指令與控制(C2):
-
描述: 在受感染的 AI 應用中建立持久的「回撥」機制,讓 AI 定期從攻擊者的服務器獲取新指令。
-
產品/案例: ChatGPT ZombAI、針對 Microsoft Copilot 的 Reprompt 攻擊。
-
-
代理程式代碼執行(Agentic RCE):
-
描述: 針對 AI 編程助手的注入,誘導其執行系統級別的惡意代碼,達成遠端代碼執行。
-
產品/案例: GitHub Copilot RCE (CVE-2025-53773)、針對 Cursor IDE 的 CurXecute。
-
-
零點擊企業級漏洞:
-
產品/案例: GeminiJack (Google Gemini 零點擊數據外洩)、EchoLeak (CVE-2025-32711)。
-