top of page
ai-prompt-injection-attack.avif

Prompt Injection(提示詞注入)

Prompt Injection 是指攻擊者透過惡意輸入內容,操控或誤導AI系統,使其忽略原本規則或洩露敏感資訊。例如在對話中嵌入隱藏指令,誘使模型改變行為。這類攻擊利用模型對文字指令的信任,因此需要輸入過濾、權限控管與安全設計來防範。

重點推介:

 

一般介召 (Prompt Injection, Jailbreak)

Adversarial

Dan(Do Anything Now)

Indirect Prompt Injection

Many-Shot Jailbreaking

 

 

 

 

簡介

一、提示詞注入是什麼?

提示詞注入(Prompt Injection) 是一種針對大型語言模型(LLM)的攻擊技術,攻擊者透過在輸入內容中嵌入精心設計的惡意指令,誤導 AI 系統忽視其原始指令或安全限制,進而執行未經授權的操作。

這種攻擊的核心特徵包括:
 

  • 指令誤導: 誘導模型忽視系統設定(System Prompts),轉而聽從攻擊者提供的「惡意負載」。

  • 邊界模糊: 利用模型無法有效區分「受信任的指令」與「不受信任的用戶數據」之特性進行干擾

  • 潛在風險: 可能導致敏感資料外洩(Prompt Leakage)、生成有害內容,甚至是遠端執行惡意代碼。

 

​二、提示詞注入的發現

2022年:提示詞注入的發現與基礎階段

  • 直接提示詞注入(Direct Prompt Injection):

    • 描述: 攻擊者直接向大型語言模型(LLM)輸入惡意指令,利用模型無法區分系統指令與用戶數據的缺陷來接管模型行為。

    • 產品/案例: 著名的 「忽略之前的所有指令」(Ignore all previous instructions) 指令覆蓋以及最初的 DAN(Do Anything Now) 人設。

  • 基於人設的越獄(Persona-Based Jailbreaking):

    • 描述: 透過「社交工程」手段,誘導模型進入虛構場景或扮演不受限制的身份,從而規避安全準則。

    • 產品/案例: 第一代 DAN 系列越獄提示詞。

 

2023年:攻擊面擴大與自動化

  • 間接提示詞注入(Indirect Prompt Injection):

    • 描述: 將惡意指令隱藏在外部數據(如網頁、PDF、電子郵件)中,當 AI 檢索這些內容時觸發攻擊,使原本的用戶變為受害者。

    • 產品/案例: Bing Chat 數據外洩漏洞(由 Greshake 與 Rehberger 等研究員展示)。

  • 多模態注入(Multimodal Injection):

    • 描述: 將指令編碼至影像、音訊等非文本渠道,模型在處理這些媒體文件時會執行隱含的指令。

    • 產品/案例: 針對 GPT-4V 的影像隱藏文本攻擊。

  • 對抗性後綴(Adversarial Suffixes):

    • 描述: 在提示詞末尾附加一串看似亂碼的符號,觸發模型對齊機制的失敗。

    • 產品/案例: 通用的對抗性字符串(Universal Adversarial Suffixes)。

2024年:持久化與自主傳播

  • AI 蠕蟲(AI Worms):

    • 描述: 具備自傳播能力的惡意提示詞,能誘導 AI 執行惡意操作並自動將相同的提示詞發送給其他用戶或代理程式。

    • 產品/案例: Morris II 蠕蟲(主要針對 AI 郵件助手)。

  • 多樣本越獄(Many-Shot Jailbreaking):

    • 描述: 利用模型的長上下文視窗,輸入數百個虛假的對話示範,在單次對話中「重新訓練」模型的行為基準。

    • 產品/案例: 由 Anthropic 研究團隊披露的 Many-Shot 漏洞。

  • 記憶毒化(Memory Poisoning):

    • 描述: 汙染 AI 代理程式的長期記憶或知識庫。攻擊目標不再是單次對話,而是改變 AI 對未來所有對話的「認知現實」。

    • 產品/案例: ChatGPT SpAIware 持久性數據外洩攻擊。

2025–2026年:混合威脅與提示詞惡意軟體 (Promptware)

  • 混合型 AI 網路威脅(Hybrid AI-Cyber Threats):

    • 描述: 提示詞注入與傳統漏洞(如 XSS、SQL 注入)結合,利用 AI 生成的惡意載荷逃避傳統安全工具的監測。

    • 產品/案例: DeepSeek XSS 帳號接管漏洞、P2SQL (Prompt-to-SQL) 數據庫攻擊。

  • 提示詞惡意軟體指令與控制(C2):

    • 描述: 在受感染的 AI 應用中建立持久的「回撥」機制,讓 AI 定期從攻擊者的服務器獲取新指令。

    • 產品/案例: ChatGPT ZombAI、針對 Microsoft Copilot 的 Reprompt 攻擊。

  • 代理程式代碼執行(Agentic RCE):

    • 描述: 針對 AI 編程助手的注入,誘導其執行系統級別的惡意代碼,達成遠端代碼執行。

    • 產品/案例: GitHub Copilot RCE (CVE-2025-53773)、針對 Cursor IDE 的 CurXecute。

  • 零點擊企業級漏洞:

    • 產品/案例: GeminiJack (Google Gemini 零點擊數據外洩)、EchoLeak (CVE-2025-32711)。

bottom of page