top of page
Library Cards

重要詞彙

智能代理 (AI Agent) 

智能代理(AI agent)是一種電腦程式,它能感受周圍的環境,來接收資料或訊息。它會根據這些資訊,自動作出決定,去完成所設定的任務或目的。

 

演算法(Algorithm)
是一套清楚的規則或指令,用來指導電腦如何計算或解決問題。它是一個一步一步的程序,告訴電腦如何把輸入的資料,轉變成想要的結果。

對齊 / 校準(Alignment)

 

在人工智能領域中,「對齊」或「校準」指的是確保人工智能系統(特別是那些擁有強大能力和自主性的系統),能夠與人類的價值觀、目標和意圖保持一致。這個概念旨在解決一個挑戰:如何開發出能以有益於人類且與人類價值觀配合的方式行事,而不是潛在有害或不一致的AI系統。




應用編程接口 (Application Programming Interface API)

又稱「應用程序接口」、「應用程式介面」,它是一套規則和協定,允許不同的軟體應用程式之間可以互相溝通和互動。一個 API 扮演著不同軟體系統之間的中間人,讓它們能夠互相交換數據、請求服務,並執行各種操作。




通用人工智能(Artificial General Intelligence = AGI)

AGI 就是一種像人一樣聰明,甚至比人更聰明的 AI。它不像現在的 AI 只能做特定任務(比如下棋或翻譯),而是可以像人類一樣學習、思考並解決任何類型的問題。

 

因果穩健獎勵模型 (Causally Robust Reward Modeling = Crome)

當工程師訓練語言模型時 (例如 ChatGPT),他們通常會用到獎勵方式,來根據人類的反饋 (feedback),告訴模型哪些答案比較好。但是,獎勵方式很容易使語言模型誤解而出錯,這個現象稱為「獎勵駭客」 (Reward Hacking)。例如,獎勵可能會使語言模型誤以為一個比較長的答案,或者排版比較漂亮的答案,就是品質更高的答案,即使它不見得更正確或更相關。Crome 就是一種新的獎勵方法,目的就是為了避免語言模型的誤解。

References:

- Robust Reward Modeling via Causal Rubrics

- Crome: Google DeepMind’s Causal Framework for Robust Reward Modeling in LLM Alignment

資料探勘 (Data Mining)
又稱「數據挖掘」,是一個整理和篩選龐大數據的過程,找出它們的規律,並了解這些數據之間有什麼關係,以便預測未來或解決特定的問題。
 


深度學習 (Deep Learning)
深度學習是 AI 的一種功能,它會模仿人類大腦運作的方式來處理數據,並從中建立起各種模式或規律,以便用來進行決策。

簡而言之,你可以把它想像成一個非常複雜且多層次的電腦神經網路。它會像大腦一樣,自己從大量數據中學習,找出隱藏的關聯,這樣它就能夠做出判斷、分類圖片或理解語言等複雜任務。


微調 (Fine-Tuning)

在語言模型的領域中,「微調」指的是一個過程:在一個已經完成初步訓練的模型上,再利用特定的數據進行額外的訓練,目的是要提升這個模型在特定任務上的表現。

簡而言之,就像你已經有一個很聰明的學生,他學完了所有基礎知識。微調就是使這位學生再做一些特定的習題,讓他成為這個特定領域的專家,表現得更精準、更出色。





生成式人工智能 (Generative AI)

生成式人工智能的是一個專注於創造,能夠生成新內容或數據的人工智能。生成式 AI 模型會學習數據中潛藏的規律、結構和特徵,並利用這些知識來生成新的、以前從未見過的各種形式的內容,例如文字、圖像和聲音。




生成式預訓練轉換器 (Generative Pre-trained Transformers = GPT)

GPT 是由 OpenAI 在 2018 年推出的一系列大型語言模型(LLMs),這是一種基於「轉換器」 (Transformer) 的人工神經網路來建構。所謂:

  • 預訓練(Pre-trained): 是使用大量未標記的文字數據,以一種無監督(Unsupervised)的方式進行訓練。

  • 生成(Generative): 指它能夠生成出全新的、像人類寫出來的文字。

 

簡而言之,GPT 是一種非常強大的 AI 寫作大師。它閱讀了網路上海量的文字資料(預訓練),學會了文字的規律,所以它可以自己創造出(生成)流暢、自然,而且像是人寫出來的文章、詩歌或對話。


圖形處理器 (Graphics Processing Unit = GPU)
GPU 的設計是為了同時處理許多任務。CPU(電腦的主腦)一次只能專心做少數幾件複雜的事情。而 GPU 就像一個擁有數百隻手的團隊,可以同時處理數千個簡單的計算。這種「大量並行」的能力,正是 AI 訓練和高速圖像處理所需的。


幻覺 (Hallucination)

在人工智能領域中,「幻覺」是指一種現象:AI 模型輸出的內容與輸入內容不符 ,或與預期的任務不一致。AI 就像在「胡言亂語」或「瞎編」一樣。它會以一種聽起來很有自信的方式,說出事實上不存在或完全錯誤的資訊,即使它沒有任何數據或邏輯來支持這些說法。

 

 

越獄 (Jailbreak)

在人工智能領域中,「越獄」是指一種做法,透過設計特殊的提示或問題,欺騙 AI 讓它做出超出原先設定的限制。AI 越獄也存在一些倫理道德上的疑慮。如果成功,它可能會暴露 AI 可被利用於監管範圍之外的領域,並可能造成潛在的傷害。

References:

What is Jailbreaking in AI models like ChatGPT?

Exploring the World of AI Jailbreaks

Jailbreaking Large Language Models: Techniques, Examples, Prevention Methods

大型語言模型 (Large Language Model = LLM) 
LLM 是一種機器學習模型 (Machine Learning),它學會了人類語言的所有規則和知識,所以它能夠理解你說的話,並且像人一樣流暢、有邏輯地與你聊天、寫文章或幫你翻譯。

大型推理模型 (Large Reasoning Model = LRM)

屬之大型語言模型 (LLMs) 的類別。LRM 在給出最終答案之前,會列明中間的推理步驟,就像一條「思維鏈」(Chain-of-Thought)一樣,模擬一個有結構的思考過程。一般的 AI 可能直接給你答案 。但 LRM 會先說:「我先做步驟 A、然後做步驟 B,根據這些步驟,我的最終答案是 ... 」

References:

- What are Large Reasoning Models (LRMs)?

機器學習(Machine Learning = ML)

機器學習就是讓電腦不用被明確指示要做什麼,而是透過觀察大量的例子(數據),自己找出規律,然後像人類一樣,隨著經驗累積越來越聰明,做得越來越好。

專家混合模型(Mixture-of-Experts = MoE)

「專家混合模型」 (MoE),是集合各專門的 AI 模型 (專家模型) 成一團隊 。集合中的每個專家模型只會用相關數據來訓練,這樣做的目的是收窄每個模型的專注範圍。例如團隊中有專門看「法律」的專家、專門看「財務」的專家、專門看「工程」的專家。當一個新問題來時,一個總指揮(Router/Gate)會決定將各分題分配給最適合的專家來處理,讓每個專家只負責自己最擅長的部分,然後組建一個專業答案。

References:

- Mixture of Experts: How an Ensemble of AI Models Decide As One

Mixture of experts: Demystifying the divide-and-conquer model 

多智能代理協作框架 (Multi-Agent Collaborative Framework = MACF)

MACF 由多個 AI agents 組成的團隊,而這些 AI agents 都擅長用人類語言彼此討論、分配任務、互相理解。每個 agent 都有自己的任務,一起完成複雜的工作。

 

References:

- Build AI agent workforce - Multi agent framework with MetaGPT & chatDev

Build an Entire AI Agent Workforce | ChatDev and Google Brain ... | AGI User Interface

A Survey on Large Language Model based Autonomous Agents

多模態(Multimodal)
多模態 AI 就是指那種 AI 可以同時理解和處理多種不同形式的資訊,例如,你可以給它一張圖片和一段文字,它能理解這兩者之間的關聯。就像人類一樣,不只是用眼睛看圖像,也可同時用耳朵聽聲音,用大腦思考文字。


自然語言處理 (Natural Language Processing = NLP)
NLP 就是讓電腦學會「聽懂」和「看懂」人類說話和寫字(例如中文、英文)。它讓電腦能夠理解我們語言中的意義、情感和語法,而不只是將語言當作一串無意義的代碼。
 


無程式碼/低程式碼 (No-code/low-code)
「無程式碼/低程式碼」是一種方法,讓不懂程式設計的人或程式設計初級人員,也能夠編寫應用程式 (Apps),甚至建構 AI 系統。


八思者 (OctoThinker)

AI 語言模型就像學生一樣,我們發現,單用獎懲方法使學生「強化學習」 (Reinforcement Learning = RL),也不一定能使每個學生都學得好和快。因此,便發明了一種名為 OctoThinker 的方法。它包含 兩個階段:

第一階段:打穩基礎

  • 先讓 AI 閱讀海量的資料,把基礎知識學得紮紮實實。

第二階段:專注思考

  • 接著,給它少量而精華的「推理練習題」。讓它慢慢消化和理解複雜的邏輯思考。

 

​這方法配合獎懲機制的「強化學習」,會使 AI 更優秀。用這方法訓練出來的語言模型,便屬於「OctoThinker 模型家族」的語言模型。

References:

- OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

​- GitHub: OctoThinker

參數 (Parameter)
在生成式人工智能(Generative AI) 中,「參數」是一組變數或設定,它們決定了一個生成式模型的行為和特性,因而決定了最終生成出來的結果。參數越多,模型的能力通常就越複雜、越強大。



量化 (Quantization)

在大型語言模型(LLMs)中,「量化」是一種用來節省模型的記憶體空間、使運算效率更高的技術 :一般而言,LLM 的參數 (parameters) 是以非常精準的數字儲存的。然而,這些精準的數字需要大量的記憶體來儲存,也需要強大的運算能力來處理。「量化」就是降低參數的精確度,像四捨五入一樣,以節省記憶體空間,提高運算效率。



強化學習 (Reinforcement Learning = RL)
是一種機器學習方法:AI 透過不斷地嘗試與摸索來學習,它會依照它每次做出的決定,獲得正面的鼓勵(獎勵)或負面的糾正(懲罰)。


負責任的 AI(Responsible AI = RAI)
負責任的 AI (RAI) 是一種方法論,旨在以安全、值得信賴、合乎道德倫理的方式來開發、評估和部署人工智能系統 。


 
獎勵駭客(Reward Hacking)

是 AI 的「作弊」,是指 AI 找到一個捷徑或伎倆,在任務中獲得高分或高獎勵,但實際上並沒有正確地完成它應該做的事情。例如,機械人清理垃圾,每放進一個垃圾到垃圾箱就得分數。但機械人為了得高分,就把所有輕便的東西放進垃圾箱裡,不管這是否垃圾,而那些大型的垃圾就置之不理。

References:

無縫接軌(Seamless)
「無縫接軌」形容各系統設計得,彼此之間沒有任何隔閡或障礙。它們可以自動、流暢地傳遞資訊和接續工作,使用者感覺不到任何間斷,過程一氣呵成。


社交型 AI(Social AI)
社交型 AI 就是讓 AI 學會像人一樣有「情商」。它不僅能理解你說的話,還能理解你的情緒、判斷你的意圖,並且以讓人感到舒服、自然、合適的方式來回應你和與你互動。


監督學習(Supervised Learning)
監督學習 是一種機器學習方法。它的做法是先給 AI 大量「已知答案」的例子 ── 也就是每組資料都包含「輸入」和對應的「正確輸出」(稱為「標籤」,labels)。電腦透過這些成對的範例,學會一個規則,之後當它看到新的輸入時,就能依照所學的規則給出正確的輸出。
 


張量處理單元 (Tensor Processing Unit = TPU)
TPU (Tensor Processing Unit) 是由 Google 專門開發的一種特殊硬件加速器 。張量 (tensor) 是一個數學概念,代表多維度 (muti-dimensional)、多層次的數據陣列 (matrix)。AI 模型在運算時,需要處理大量的多維度數據(也就是張量)。TPU 的設計就是為了極快地處理這些張量,讓 AI 的訓練和運算速度可以比使用一般 CPU 或 GPU 快上好幾倍。


圖文生成 (Text-to-image)
圖文生成的 AI 模型,就明白你輸入的文字,然後產生出一個符合該描述的圖像 。


詞元(Token)
當你把一段文字輸入給 AI,它不會直接把整段文字一起看,而是會先把它切成很多個小單位 ── 這小單位就叫做「詞元」。AI 將這段話拆解成許多個詞元之後,再一個一個去處理和計算。AI 的能力和限制(例如它能處理多少輸入和輸出的文字)通常都是用詞元的數量來衡量的。


非監督學習(Unsupervised Learning)

是 AI 自主學習的方法,過程中不需要事先給予帶有正確答案的訓練範例。

bottom of page