重要詞彙

智能代理 (AI Agent)

智能代理（AI agent）是一種電腦程式，它能感受周圍的環境，來接收資料或訊息。它會根據這些資訊，自動作出決定，去完成所設定的任務或目的。

演算法（Algorithm）
是一套清楚的規則或指令，用來指導電腦如何計算或解決問題。它是一個一步一步的程序，告訴電腦如何把輸入的資料，轉變成想要的結果。

對齊 / 校準（Alignment）

在人工智能領域中，「對齊」或「校準」指的是確保人工智能系統（特別是那些擁有強大能力和自主性的系統），能夠與人類的價值觀、目標和意圖保持一致。這個概念旨在解決一個挑戰：如何開發出能以有益於人類且與人類價值觀配合的方式行事，而不是潛在有害或不一致的AI系統。

應用編程接口 (Application Programming Interface API)

又稱「應用程序接口」、「應用程式介面」，它是一套規則和協定，允許不同的軟體應用程式之間可以互相溝通和互動。一個 API 扮演著不同軟體系統之間的中間人，讓它們能夠互相交換數據、請求服務，並執行各種操作。

通用人工智能（Artificial General Intelligence = AGI)

AGI 就是一種像人一樣聰明，甚至比人更聰明的 AI。它不像現在的 AI 只能做特定任務（比如下棋或翻譯），而是可以像人類一樣學習、思考並解決任何類型的問題。

因果穩健獎勵模型 (Causally Robust Reward Modeling = Crome)

當工程師訓練語言模型時 (例如 ChatGPT)，他們通常會用到獎勵方式，來根據人類的反饋 (feedback)，告訴模型哪些答案比較好。但是，獎勵方式很容易使語言模型誤解而出錯，這個現象稱為「獎勵駭客」 (Reward Hacking)。例如，獎勵可能會使語言模型誤以為一個比較長的答案，或者排版比較漂亮的答案，就是品質更高的答案，即使它不見得更正確或更相關。Crome 就是一種新的獎勵方法，目的就是為了避免語言模型的誤解。

References:

- Robust Reward Modeling via Causal Rubrics

- Crome: Google DeepMind’s Causal Framework for Robust Reward Modeling in LLM Alignment

資料探勘 (Data Mining)
又稱「數據挖掘」，是一個整理和篩選龐大數據的過程，找出它們的規律，並了解這些數據之間有什麼關係，以便預測未來或解決特定的問題。

深度學習 (Deep Learning)
深度學習是 AI 的一種功能，它會模仿人類大腦運作的方式來處理數據，並從中建立起各種模式或規律，以便用來進行決策。

簡而言之，你可以把它想像成一個非常複雜且多層次的電腦神經網路。它會像大腦一樣，自己從大量數據中學習，找出隱藏的關聯，這樣它就能夠做出判斷、分類圖片或理解語言等複雜任務。

微調 (Fine-Tuning)

在語言模型的領域中，「微調」指的是一個過程：在一個已經完成初步訓練的模型上，再利用特定的數據進行額外的訓練，目的是要提升這個模型在特定任務上的表現。

簡而言之，就像你已經有一個很聰明的學生，他學完了所有基礎知識。微調就是使這位學生再做一些特定的習題，讓他成為這個特定領域的專家，表現得更精準、更出色。

生成式人工智能 (Generative AI)

生成式人工智能指的是一個專注於創造，能夠生成新內容或數據的人工智能。生成式 AI 模型會學習數據中潛藏的規律、結構和特徵，並利用這些知識來生成新的、以前從未見過的各種形式的內容，例如文字、圖像和聲音。

生成式預訓練轉換器 (Generative Pre-trained Transformers = GPT)

GPT 是由 OpenAI 在 2018 年推出的一系列大型語言模型（LLMs），這是一種基於「轉換器」 (Transformer) 的人工神經網路來建構。所謂：

預訓練（Pre-trained）：是使用大量未標記的文字數據，以一種無監督（Unsupervised）的方式進行訓練。
生成（Generative）：指它能夠生成出全新的、像人類寫出來的文字。

簡而言之，GPT 是一種非常強大的 AI 寫作大師。它閱讀了網路上海量的文字資料（預訓練），學會了文字的規律，所以它可以自己創造出（生成）流暢、自然，而且像是人寫出來的文章、詩歌或對話。

圖形處理器 (Graphics Processing Unit = GPU)
GPU 的設計是為了同時處理許多任務。CPU（電腦的主腦）一次只能專心做少數幾件複雜的事情。而 GPU 就像一個擁有數百隻手的團隊，可以同時處理數千個簡單的計算。這種「大量並行」的能力，正是 AI 訓練和高速圖像處理所需的。

幻覺 (Hallucination)

在人工智能領域中，「幻覺」是指一種現象：AI 模型輸出的內容與輸入內容不符，或與預期的任務不一致。AI 就像在「胡言亂語」或「瞎編」一樣。它會以一種聽起來很有自信的方式，說出事實上不存在或完全錯誤的資訊，即使它沒有任何數據或邏輯來支持這些說法。

越獄 (Jailbreak)

在人工智能領域中，「越獄」是指一種做法，透過設計特殊的提示或問題，欺騙 AI 讓它做出超出原先設定的限制。AI 越獄也存在一些倫理道德上的疑慮。如果成功，它可能會暴露 AI 可被利用於監管範圍之外的領域，並可能造成潛在的傷害。

References:

- What is Jailbreaking in AI models like ChatGPT?

- Exploring the World of AI Jailbreaks

- Jailbreaking Large Language Models: Techniques, Examples, Prevention Methods

大型語言模型 (Large Language Model = LLM)
LLM 是一種機器學習模型 (Machine Learning)，它學會了人類語言的所有規則和知識，所以它能夠理解你說的話，並且像人一樣流暢、有邏輯地與你聊天、寫文章或幫你翻譯。

大型推理模型 (Large Reasoning Model = LRM)

屬之大型語言模型 (LLMs) 的類別。LRM 在給出最終答案之前，會列明中間的推理步驟，就像一條「思維鏈」（Chain-of-Thought）一樣，模擬一個有結構的思考過程。一般的 AI 可能直接給你答案。但 LRM 會先說：「我先做步驟 A、然後做步驟 B，根據這些步驟，我的最終答案是 ... 」

References:

- What are Large Reasoning Models (LRMs)?

機器學習（Machine Learning = ML）

機器學習就是讓電腦不用被明確指示要做什麼，而是透過觀察大量的例子（數據），自己找出規律，然後像人類一樣，隨著經驗累積越來越聰明，做得越來越好。

專家混合模型（Mixture-of-Experts = MoE）

「專家混合模型」 (MoE)，是集合各專門的 AI 模型 (專家模型) 成一團隊。集合中的每個專家模型只會用相關數據來訓練，這樣做的目的是收窄每個模型的專注範圍。例如團隊中有專門看「法律」的專家、專門看「財務」的專家、專門看「工程」的專家。當一個新問題來時，一個總指揮（Router/Gate）會決定將各分題分配給最適合的專家來處理，讓每個專家只負責自己最擅長的部分，然後組建一個專業答案。

References:

- Mixture of Experts: How an Ensemble of AI Models Decide As One

- Mixture of experts: Demystifying the divide-and-conquer model

多智能代理協作框架 (Multi-Agent Collaborative Framework = MACF)

MACF 由多個 AI agents 組成的團隊，而這些 AI agents 都擅長用人類語言彼此討論、分配任務、互相理解。每個 agent 都有自己的任務，一起完成複雜的工作。

References:

- Build AI agent workforce - Multi agent framework with MetaGPT & chatDev

- Build an Entire AI Agent Workforce | ChatDev and Google Brain ... | AGI User Interface

- A Survey on Large Language Model based Autonomous Agents

多模態（Multimodal）
多模態 AI 就是指那種 AI 可以同時理解和處理多種不同形式的資訊，例如，你可以給它一張圖片和一段文字，它能理解這兩者之間的關聯。就像人類一樣，不只是用眼睛看圖像，也可同時用耳朵聽聲音，用大腦思考文字。

自然語言處理 (Natural Language Processing = NLP)
NLP 就是讓電腦學會「聽懂」和「看懂」人類說話和寫字（例如中文、英文）。它讓電腦能夠理解我們語言中的意義、情感和語法，而不只是將語言當作一串無意義的代碼。

無程式碼／低程式碼 (No-code/low-code)
「無程式碼／低程式碼」是一種方法，讓不懂程式設計的人或程式設計初級人員，也能夠編寫應用程式 (Apps)，甚至建構 AI 系統。

八思者 (OctoThinker)

AI 語言模型就像學生一樣，我們發現，單用獎懲方法使學生「強化學習」 (Reinforcement Learning = RL)，也不一定能使每個學生都學得好和快。因此，便發明了一種名為 OctoThinker 的方法。它包含兩個階段：

第一階段：打穩基礎

先讓 AI 閱讀海量的資料，把基礎知識學得紮紮實實。

第二階段：專注思考

接著，給它少量而精華的「推理練習題」。讓它慢慢消化和理解複雜的邏輯思考。

這方法配合獎懲機制的「強化學習」，會使 AI 更優秀。用這方法訓練出來的語言模型，便屬於「OctoThinker 模型家族」的語言模型。

References:

- OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

- GitHub: OctoThinker

參數 (Parameter)
在生成式人工智能（Generative AI）中，「參數」是一組變數或設定，它們決定了一個生成式模型的行為和特性，因而決定了最終生成出來的結果。參數越多，模型的能力通常就越複雜、越強大。

量化 (Quantization)

在大型語言模型（LLMs）中，「量化」是一種用來節省模型的記憶體空間、使運算效率更高的技術：一般而言，LLM 的參數 (parameters) 是以非常精準的數字儲存的。然而，這些精準的數字需要大量的記憶體來儲存，也需要強大的運算能力來處理。「量化」就是降低參數的精確度，像四捨五入一樣，以節省記憶體空間，提高運算效率。

強化學習 (Reinforcement Learning = RL)
是一種機器學習方法：AI 透過不斷地嘗試與摸索來學習，它會依照它每次做出的決定，獲得正面的鼓勵（獎勵）或負面的糾正（懲罰）。

負責任的 AI（Responsible AI = RAI）
負責任的 AI (RAI) 是一種方法論，旨在以安全、值得信賴、合乎道德倫理的方式來開發、評估和部署人工智能系統。

獎勵駭客（Reward Hacking）

是 AI 的「作弊」，是指 AI 找到一個捷徑或伎倆，在任務中獲得高分或高獎勵，但實際上並沒有正確地完成它應該做的事情。例如，機械人清理垃圾，每放進一個垃圾到垃圾箱就得分數。但機械人為了得高分，就把所有輕便的東西放進垃圾箱裡，不管這是否垃圾，而那些大型的垃圾就置之不理。

References:

Reward Hacking: When AI Cheats the System
Defining and Characterizing Reward Hacking (March 5, 2025) - Technical
Reward Hacking in Reinforcement Learning (Nov 28, 2024) - Technicall

無縫接軌（Seamless）
「無縫接軌」形容各系統設計得，彼此之間沒有任何隔閡或障礙。它們可以自動、流暢地傳遞資訊和接續工作，使用者感覺不到任何間斷，過程一氣呵成。

社交型 AI（Social AI）
社交型 AI 就是讓 AI 學會像人一樣有「情商」。它不僅能理解你說的話，還能理解你的情緒、判斷你的意圖，並且以讓人感到舒服、自然、合適的方式來回應你和與你互動。

監督學習（Supervised Learning）
監督學習是一種機器學習方法。它的做法是先給 AI 大量「已知答案」的例子 ── 也就是每組資料都包含「輸入」和對應的「正確輸出」（稱為「標籤」，labels）。電腦透過這些成對的範例，學會一個規則，之後當它看到新的輸入時，就能依照所學的規則給出正確的輸出。

張量處理單元 (Tensor Processing Unit = TPU)
TPU (Tensor Processing Unit) 是由 Google 專門開發的一種特殊硬件加速器。張量 (tensor) 是一個數學概念，代表多維度 (muti-dimensional)、多層次的數據陣列 (matrix)。AI 模型在運算時，需要處理大量的多維度數據（也就是張量）。TPU 的設計就是為了極快地處理這些張量，讓 AI 的訓練和運算速度可以比使用一般 CPU 或 GPU 快上好幾倍。

圖文生成 (Text-to-image)
圖文生成的 AI 模型，就明白你輸入的文字，然後產生出一個符合該描述的圖像。

詞元（Token）
當你把一段文字輸入給 AI，它不會直接把整段文字一起看，而是會先把它切成很多個小單位 ── 這小單位就叫做「詞元」。AI 將這段話拆解成許多個詞元之後，再一個一個去處理和計算。AI 的能力和限制（例如它能處理多少輸入和輸出的文字）通常都是用詞元的數量來衡量的。

非監督學習（Unsupervised Learning）

是 AI 自主學習的方法，過程中不需要事先給予帶有正確答案的訓練範例。

重要詞彙

​​​

智能代理 (AI Agent)

​​​

演算法（Algorithm） 是一套清楚的規則或指令，用來指導電腦如何計算或解決問題。它是一個一步一步的程序，告訴電腦如何把輸入的資料，轉變成想要的結果。

​

​

對齊 / 校準（Alignment）

應用編程接口 (Application Programming Interface API)

通用人工智能（Artificial General Intelligence = AGI)

AGI 就是一種像人一樣聰明，甚至比人更聰明的 AI。它不像現在的 AI 只能做特定任務（比如下棋或翻譯），而是可以像人類一樣學習、思考並解決任何類型的問題。

​

因果穩健獎勵模型 (Causally Robust Reward Modeling = Crome)

References:

- Robust Reward Modeling via Causal Rubrics

- Crome: Google DeepMind’s Causal Framework for Robust Reward Modeling in LLM Alignment

​

​

簡而言之，你可以把它想像成一個非常複雜且多層次的電腦神經網路。它會像大腦一樣，自己從大量數據中學習，找出隱藏的關聯，這樣它就能夠做出判斷、分類圖片或理解語言等複雜任務。 微調 (Fine-Tuning)

生成式人工智能 (Generative AI)

生成式預訓練轉換器 (Generative Pre-trained Transformers = GPT)

​

越獄 (Jailbreak)

​

​​​

大型語言模型 (Large Language Model = LLM) LLM 是一種機器學習模型 (Machine Learning)，它學會了人類語言的所有規則和知識，所以它能夠理解你說的話，並且像人一樣流暢、有邏輯地與你聊天、寫文章或幫你翻譯。

​

​

大型推理模型 (Large Reasoning Model = LRM)

References:

- What are Large Reasoning Models (LRMs)?

​

​

機器學習（Machine Learning = ML）

機器學習就是讓電腦不用被明確指示要做什麼，而是透過觀察大量的例子（數據），自己找出規律，然後像人類一樣，隨著經驗累積越來越聰明，做得越來越好。

​

​

​

專家混合模型（Mixture-of-Experts = MoE）

​

References:

- Mixture of Experts: How an Ensemble of AI Models Decide As One

- Mixture of experts: Demystifying the divide-and-conquer model

​

​

多智能代理協作框架 (Multi-Agent Collaborative Framework = MACF)

AI 語言模型就像學生一樣，我們發現，單用獎懲方法使學生「強化學習」 (Reinforcement Learning = RL)，也不一定能使每個學生都學得好和快。因此，便發明了一種名為 OctoThinker 的方法。它包含 兩個階段：

​

​

​

參數 (Parameter) 在生成式人工智能（Generative AI） 中，「參數」是一組變數或設定，它們決定了一個生成式模型的行為和特性，因而決定了最終生成出來的結果。參數越多，模型的能力通常就越複雜、越強大。

量化 (Quantization)

獎勵駭客（Reward Hacking）

​

是 AI 自主學習的方法，過程中不需要事先給予帶有正確答案的訓練範例。

演算法（Algorithm）
是一套清楚的規則或指令，用來指導電腦如何計算或解決問題。它是一個一步一步的程序，告訴電腦如何把輸入的資料，轉變成想要的結果。

簡而言之，你可以把它想像成一個非常複雜且多層次的電腦神經網路。它會像大腦一樣，自己從大量數據中學習，找出隱藏的關聯，這樣它就能夠做出判斷、分類圖片或理解語言等複雜任務。

微調 (Fine-Tuning)

大型語言模型 (Large Language Model = LLM)
LLM 是一種機器學習模型 (Machine Learning)，它學會了人類語言的所有規則和知識，所以它能夠理解你說的話，並且像人一樣流暢、有邏輯地與你聊天、寫文章或幫你翻譯。

AI 語言模型就像學生一樣，我們發現，單用獎懲方法使學生「強化學習」 (Reinforcement Learning = RL)，也不一定能使每個學生都學得好和快。因此，便發明了一種名為 OctoThinker 的方法。它包含兩個階段：

參數 (Parameter)
在生成式人工智能（Generative AI）中，「參數」是一組變數或設定，它們決定了一個生成式模型的行為和特性，因而決定了最終生成出來的結果。參數越多，模型的能力通常就越複雜、越強大。