想深度掌握AI?先搞懂語言大模型:技術原理

作為一個曾經(jīng)的 VUI 領域從業(yè)者,LLM 出現(xiàn)后非常想要弄清大模型對 VUI 領域的影響,于是有了此文。

本文部分內(nèi)容由 GPT 協(xié)助完成。

相關干貨:

技術原理

1. LLM

①定義和特點

LLM 是語言模型(Language Model)的一種,簡單來說,LLM 通過學習大量的文本數(shù)據(jù),例如文章、對話和網(wǎng)頁等,來預測下一個詞或下一段話的可能性,從而使計算機能夠更好地理解和生成人類語言。

LLM 的核心特點包括自動化訓練、大規(guī)模的數(shù)據(jù)訓練、更強的上下文感知能力、多模態(tài)生成。

一般 LLM 指參數(shù)數(shù)量超過 10 億數(shù)量級的模型。

②GPT 和 LLM 的關系

GPT 是其中一種實現(xiàn) LLM 大規(guī)模語言模型的技術,GPT 出現(xiàn)之前,LLM 并沒有作為一個獨立的概念被廣泛討論和使用。

2. GPT

①GPT 的訓練思路——了解GPT為什么強大

GPT(Generative Pre-Training 生成式的預訓練),G 是生成 Generative、P 是預訓練( Pre-trained)、T 是模型結(jié)構(gòu) Transformer。

總的來說,GPT 的訓練經(jīng)歷了兩個過程:

Part 1.無監(jiān)督學習階段

GPT 名字中的預訓練( Pre-trained)指的也就是這個階段,之所以叫無監(jiān)督,是在這個階段 GPT 使用了大量未標注的文本數(shù)據(jù)來自我學習,這和傳統(tǒng)的 NLP 領域研究方法完全不同。

這種方法使得 GPT 模型可以從大量的無標注數(shù)據(jù)中學習語言的潛在模式和規(guī)律:比如可以學習文本的上下文信息,構(gòu)建單詞之間的語義關系,并在訓練過程中自適應地優(yōu)化模型參數(shù),從而使模型具有更好的文本生成能力。

Part 2.有監(jiān)督微調(diào)

這個階段可以理解為通過給到 GPT 正確的對話模板(包含案例和執(zhí)行結(jié)果)讓 GPT 通過案例來學習,并且形成回答??梢允沟?GPT 的能力分化到不同的技能樹。

在該階段需要注意避免過度依賴模板訓練,同時引入多樣性的數(shù)據(jù)和技能樹,從而使得 GPT 在生成回答時更加靈活和多樣化。

②GPT 是如何生成回答的?

這里有個重要的概念:自回歸生成

這是指模型根據(jù)輸入的前文和已生成的部分文本來預測下一個單詞或字符,不斷重復這個過程直到生成整個文本。這個方法又被叫做“生成式”,每次選取生成概率最高的那個字出現(xiàn)。

后文在介紹 Google 的語言模型 Bert 時會提到,這種自回歸生成的方式是導致 GPT 最終超越 Bert 的關鍵。

③GPT 神奇的涌現(xiàn)能力

涌現(xiàn)使 GPT 模型可以自動生成具有語言上下文和邏輯關系的連貫文本,這些文本在預訓練時并沒有直接指定,而是通過模型自身的學習和推理得到的。這被眾多文章稱為:“烏鴉”能力(文章最后有附圖解釋烏鴉和鸚鵡的故事)

GPT 3 已經(jīng)涌現(xiàn)了上下文理解能力、一定的泛化能力。使得模型無需經(jīng)過重新訓練就可以理解新的數(shù)據(jù)。具體來說,當 GPT 3 在處理一段文本時,它不僅會考慮到這段文本本身的含義和語法結(jié)構(gòu),還會同時考慮到該文本所處的上下文環(huán)境,例如前面的文本內(nèi)容、所屬的領域、用戶身份等。從而更好地理解這段文本的含義和目的,并且在生成相應的回應時更加精準地表達出自己的意思。

GPT 3.5 相比 3.0 增加了代碼訓練及指令微調(diào),并且涌現(xiàn)了使用思維鏈(chain-of-thought)進行復雜推理的能力。

涌現(xiàn)究竟是如何出現(xiàn)的,目前并沒有確切的答案,更多的猜測是當數(shù)據(jù)量達到一定規(guī)模后,由于模型學習到了足夠多的樣本案例,逐漸出現(xiàn)的。

④GPT-4

官方由于競爭以及安全方面考慮,并未公布具體細節(jié),從能力上來講,GPT-4 可以接受圖像和文本作為輸入,并產(chǎn)生文本輸出??梢蕴幚砀L的提示和對話,并且不會出現(xiàn)太多的事實錯誤。并且在代碼風格、輸出格式和變量命名方面表現(xiàn)更好。

關于這部分,可以在知乎問題下看到 GPT-4 的能力已經(jīng)達到了非常驚人的程度:?https://www.zhihu.com/question/589641558

⑤GPT 和 Chat GPT 是一回事嗎?

不是。ChatGPT 是基于 GPT 技術構(gòu)建的專為聊天應用程序設計的語言模型,但已經(jīng)過微調(diào)以理解人類命令指令的含義,例如理解上下文、識別意圖和提供適當?shù)捻憫?/p>

⑥GPT 解決了傳統(tǒng)模型的哪些問題

更強上下文理解能力

GPT 在涌現(xiàn)階段學習文本的上下文信息,構(gòu)建單詞之間的語義關系。

更強的泛化能力

傳統(tǒng)的語言模型通常采用有監(jiān)督學習的訓練方式。這種方法需要大量的標注數(shù)據(jù)作為訓練模型的輸入。這種方式會導致模型「泛化」能力不佳。

泛化問題是指機器學習模型在學習和理解語言時,只能記憶和學習到訓練數(shù)據(jù)中出現(xiàn)的特定單詞、短語、句子和語法規(guī)則,而無法將這些知識推廣到新的、類似但不完全相同的情境中。

GPT 通過預訓練得到的涌現(xiàn)能力使其具有很好的泛化能力,可以處理各種類型和領域的任務。另外 GPT 的訓練方法是單字猜測的方式預測下一個字,只需要積累不同場景下一個字的通用規(guī)律即可,無需遇到新的數(shù)據(jù)時往往需要重新訓練。

減少人工成本

相比傳統(tǒng)模型需要手工設計特征,GPT 在預訓練過程中自動從大量數(shù)據(jù)中學習到了豐富的語言知識和規(guī)律,從而使得在任務微調(diào)階段無需進行特征工程。這一點大大簡化了模型的構(gòu)建過程,減少了人工參與和主觀判斷的成本。

此外 GPT 主要使用大規(guī)模無監(jiān)督的預訓練,減少了對標注數(shù)據(jù)的依賴。

3. 一些需要解釋的名詞

也許你會經(jīng)常在其他文章中看到他們但是不理解其中的含義:

①AGI 人工通用智能

也稱為強人工智能,它是指一種具備像人類一樣的學習、推理、思考、決策和自我發(fā)展等能力的人工智能系統(tǒng)。與目前的人工智能系統(tǒng)相比,AGI 具有更廣泛的適用性和更高的智能水平,能夠處理各種復雜的任務和問題,并能夠持續(xù)地自我學習和進化,從而實現(xiàn)真正的人類水平智能。目前還沒有任何一個人工智能模型能夠達到真正的 AGI 水平。

Transformer

是一種基于注意力機制(attention mechanism)的序列到序列(sequence-to-sequence)模型。

傳統(tǒng)的序列到序列模型(如循環(huán)神經(jīng)網(wǎng)絡 RNN)存在著信息傳遞效率低、難以并行計算等問題,而 Transformer 通過引入自注意力機制來解決這些問題。自注意力機制允許模型根據(jù)序列中的其他位置調(diào)整每個位置的表示,從而提高模型對上下文的理解能力。與 RNN 相比,Transformer 能夠更好地處理長序列,并且可以使用并行計算來提高訓練速度。

Attention mechanism 注意力機制

是一種用于機器學習和自然語言處理的技術,它可以根據(jù)輸入的信息動態(tài)地將注意力集中在不同的位置,從而使得模型能夠更好地理解和處理輸入的序列數(shù)據(jù)。

sequence-to-sequence 序列到序列

是一種常見的神經(jīng)網(wǎng)絡架構(gòu),用于將一個序列映射到另一個序列。它由兩個主要組件組成:編碼器和解碼器。編碼器將輸入序列轉(zhuǎn)換為一個向量表示,解碼器則將這個向量解碼成目標序列。在這個過程中,模型會學習到輸入序列和輸出序列之間的對應關系,從而實現(xiàn)轉(zhuǎn)換。

In-Context Learning 上下文理解

指機器學習模型可以根據(jù)上下文信息,對相同的詞匯在不同上下文中進行不同的理解和處理,以更準確地對文本進行理解和生成。

Few Shot

在給定非常少的樣本(通常是幾個或者十幾個)的情況下,讓模型學會針對該領域的語言理解或生成任務。具體來說,就是通過給模型提供一些示例,讓模型在學習這些示例的基礎上,能夠根據(jù)給定的提示或問題進行推理或生成相應的文本。

Zero Shot

是指在沒有接受任何訓練的情況下,讓模型對沒有出現(xiàn)在訓練集中的任務進行推理或生成相應的文本。具體來說,就是通過給模型提供一些與目標任務相關的信息,例如一些關鍵詞或描述,讓模型能夠推斷出目標任務所需要的信息并生成相應的文本。

Few Shot、Zero Shot 這兩個概念主要是為了描述語言模型的泛化能力,也就是模型在學習過一些示例后能否推廣到新的任務或問題。在實際應用中,這種泛化能力非常重要,因為很難為每個任務或問題都提供大量的樣本進行訓練。這兩個方法通常適合擁有較大數(shù)據(jù)集的模型,比如 GPT。

Fine tuning 微調(diào)

在預訓練模型的基礎上使用標注數(shù)據(jù)進行微調(diào),以適應特定任務,通常適合較小數(shù)據(jù)集的模型,比如 Bert。

Prompt

Prompt 是一種基于自然語言生成模型的輸入提示機制,可以在一定程度上指導模型的生成結(jié)果。通過 Prompt,我們可以給模型提供一些提示、條件或者上下文信息,以期望模型能夠生成更準確、更符合預期的輸出結(jié)果。

收藏 27
點贊 35

復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。