Prompt Injection（提示詞注入）

Prompt Injection 是指攻擊者透過惡意輸入內容，操控或誤導AI系統，使其忽略原本規則或洩露敏感資訊。例如在對話中嵌入隱藏指令，誘使模型改變行為。這類攻擊利用模型對文字指令的信任，因此需要輸入過濾、權限控管與安全設計來防範。

重點推介：

一般介召 (Prompt Injection, Jailbreak)

Adversarial

Dan（Do Anything Now）

Indirect Prompt Injection

Many-Shot Jailbreaking

簡介

一、提示詞注入是什麼？

提示詞注入（Prompt Injection）是一種針對大型語言模型（LLM）的攻擊技術，攻擊者透過在輸入內容中嵌入精心設計的惡意指令，誤導 AI 系統忽視其原始指令或安全限制，進而執行未經授權的操作。

這種攻擊的核心特徵包括：

二、提示詞注入的發現

2022年：提示詞注入的發現與基礎階段

直接提示詞注入（Direct Prompt Injection）：
- 描述：攻擊者直接向大型語言模型（LLM）輸入惡意指令，利用模型無法區分系統指令與用戶數據的缺陷來接管模型行為。
- 產品/案例：著名的「忽略之前的所有指令」（Ignore all previous instructions）指令覆蓋以及最初的 DAN（Do Anything Now）人設。

基於人設的越獄（Persona-Based Jailbreaking）：
- 描述：透過「社交工程」手段，誘導模型進入虛構場景或扮演不受限制的身份，從而規避安全準則。
- 產品/案例：第一代 DAN 系列越獄提示詞。

2023年：攻擊面擴大與自動化

間接提示詞注入（Indirect Prompt Injection）：
- 描述：將惡意指令隱藏在外部數據（如網頁、PDF、電子郵件）中，當 AI 檢索這些內容時觸發攻擊，使原本的用戶變為受害者。
- 產品/案例： Bing Chat 數據外洩漏洞（由 Greshake 與 Rehberger 等研究員展示）。

多模態注入（Multimodal Injection）：
- 描述：將指令編碼至影像、音訊等非文本渠道，模型在處理這些媒體文件時會執行隱含的指令。
- 產品/案例：針對 GPT-4V 的影像隱藏文本攻擊。

對抗性後綴（Adversarial Suffixes）：
- 描述：在提示詞末尾附加一串看似亂碼的符號，觸發模型對齊機制的失敗。
- 產品/案例：通用的對抗性字符串（Universal Adversarial Suffixes）。

2024年：持久化與自主傳播

AI 蠕蟲（AI Worms）：
- 描述：具備自傳播能力的惡意提示詞，能誘導 AI 執行惡意操作並自動將相同的提示詞發送給其他用戶或代理程式。
- 產品/案例： Morris II 蠕蟲（主要針對 AI 郵件助手）。

多樣本越獄（Many-Shot Jailbreaking）：
- 描述：利用模型的長上下文視窗，輸入數百個虛假的對話示範，在單次對話中「重新訓練」模型的行為基準。
- 產品/案例：由 Anthropic 研究團隊披露的 Many-Shot 漏洞。

記憶毒化（Memory Poisoning）：
- 描述：汙染 AI 代理程式的長期記憶或知識庫。攻擊目標不再是單次對話，而是改變 AI 對未來所有對話的「認知現實」。
- 產品/案例： ChatGPT SpAIware 持久性數據外洩攻擊。

2025–2026年：混合威脅與提示詞惡意軟體 (Promptware)

混合型 AI 網路威脅（Hybrid AI-Cyber Threats）：
- 描述：提示詞注入與傳統漏洞（如 XSS、SQL 注入）結合，利用 AI 生成的惡意載荷逃避傳統安全工具的監測。
- 產品/案例： DeepSeek XSS 帳號接管漏洞、P2SQL (Prompt-to-SQL) 數據庫攻擊。

提示詞惡意軟體指令與控制（C2）：
- 描述：在受感染的 AI 應用中建立持久的「回撥」機制，讓 AI 定期從攻擊者的服務器獲取新指令。
- 產品/案例： ChatGPT ZombAI、針對 Microsoft Copilot 的 Reprompt 攻擊。

代理程式代碼執行（Agentic RCE）：
- 描述：針對 AI 編程助手的注入，誘導其執行系統級別的惡意代碼，達成遠端代碼執行。
- 產品/案例： GitHub Copilot RCE (CVE-2025-53773)、針對 Cursor IDE 的 CurXecute。

零點擊企業級漏洞：
- 產品/案例： GeminiJack (Google Gemini 零點擊數據外洩)、EchoLeak (CVE-2025-32711)。