大家好,我是言川。在開(kāi)篇先說(shuō)下寫(xiě)這篇文章的背景。熟悉我的朋友應(yīng)該都知道,我目前是與優(yōu)設(shè)平臺(tái)聯(lián)合發(fā)起了一個(gè) AI 俱樂(lè)部,這個(gè)俱樂(lè)部主要是幫助會(huì)員們掌握 AI 技術(shù)的。但是我最近發(fā)現(xiàn)了一個(gè)“非常嚴(yán)重”的問(wèn)題,不少會(huì)員寶子們來(lái)問(wèn)我什么是 AIGC、什么是智能體、AIGC 能應(yīng)用到哪些場(chǎng)景中......確實(shí)我也發(fā)現(xiàn)了,現(xiàn)在兩極分化太嚴(yán)重了,真正懂 AIGC 的人數(shù)量極少,大部分人還是處于似懂非懂的狀態(tài)。
于是,為了解決大家對(duì) AIGC 知識(shí)的不足,我耗時(shí) 36h,寫(xiě)下了這篇累計(jì) 2W 字的 AIGC 科普文章。由于本文比較長(zhǎng),大家可能一時(shí)會(huì)難以吸收,所以建議大家收藏起來(lái)反復(fù)觀看。并且,我在文末給大家準(zhǔn)備了一份福利,記得一定去看看。
為什么要讀這篇文章?我把我的經(jīng)驗(yàn)分享給你。
我在往期分享的文章中,大部分內(nèi)容是在 AI 應(yīng)用層分享經(jīng)驗(yàn)知識(shí),對(duì) AIGC 原理的經(jīng)驗(yàn)分享較少。而面對(duì) AI 技術(shù)不斷的發(fā)展,我們?cè)趹?yīng)用層的學(xué)習(xí)是遠(yuǎn)遠(yuǎn)跟不上技術(shù)更新的速度。但現(xiàn)在 AIGC 的技術(shù)框架是比較成熟的,我們能看到的新技術(shù)、新功能,大部分都是在以往經(jīng)過(guò)驗(yàn)證且成熟的技術(shù)架構(gòu)上更新。所以,當(dāng)你從底層原理去學(xué)習(xí)并理解 AI 技術(shù)(如大模型、智能體、多模態(tài)等),不論將來(lái) AI 如何革新甚至革命,你都能游刃有余的應(yīng)對(duì),重要的是培養(yǎng)一個(gè)深度學(xué)習(xí)、思考的習(xí)慣。
所以本篇文章,就是給大家進(jìn)行掃盲的。而我也會(huì)盡量用人能聽(tīng)懂的話(huà)語(yǔ)、大量的舉例來(lái)幫助你更好的學(xué)習(xí)。
為什么 AIGC 能在近 2 年突然爆發(fā),并且影響普通人和傳統(tǒng)行業(yè)。這一切都不是突然出現(xiàn),而是隨著人工智能產(chǎn)業(yè)的多年發(fā)展,技術(shù)實(shí)現(xiàn)從感知智能升級(jí)為認(rèn)知智能。
感知智能主要聚焦在視覺(jué)、聽(tīng)覺(jué)以及嗅覺(jué)等信號(hào)的處理,它使得機(jī)器能夠像人類(lèi)一樣處理這些信號(hào)。
認(rèn)知智能則更加關(guān)注語(yǔ)言推理,它聚焦在理解和生成語(yǔ)言的能力上。認(rèn)知智能使得機(jī)器能夠進(jìn)行復(fù)雜的閱讀理解任務(wù)并與人類(lèi)進(jìn)行有效的對(duì)話(huà),這就 AIGC 實(shí)現(xiàn)智能產(chǎn)品化的重要形式。
如果要更加深入的了解 AIGC,我們則需要從它的前世今生開(kāi)始說(shuō)起。
1. 什么是 AIGC
從零開(kāi)始掃盲,第一個(gè)問(wèn)題,什么是 AIGC?AIGC 是 AI Generated Content 的縮寫(xiě),直譯即是生成式人工智能。
在 AIGC 出現(xiàn)之前,我們生產(chǎn)內(nèi)容的方式是 PGC(專(zhuān)家生產(chǎn)內(nèi)容)和 UGC(用戶(hù)生產(chǎn)內(nèi)容)。而 AIGC 則是利用人工智能技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式,而這種生產(chǎn)方式被行業(yè)內(nèi)定義為 Web 3.0 互聯(lián)網(wǎng)形態(tài)。
按照模態(tài)劃分(指的是 AIGC 技術(shù)能夠處理和生成的內(nèi)容類(lèi)型),AIGC 又可以分為文本生成(如 ChatGPT、Kimi 等)、圖像生成(如 StableDiffusion、Midjourney 等)以及視頻生成(如可靈 AI、Sora 等)。當(dāng)然還有一個(gè)模態(tài)劃分,也是未來(lái) AI 大模型的發(fā)展趨勢(shì),叫做多模態(tài)。多模態(tài)指的是同時(shí)處理來(lái)自不同模態(tài)的信息,如文本、圖像、音頻等。也就是說(shuō)一個(gè) AI 大模型,能同時(shí)處理多種內(nèi)容生成類(lèi)型。
自 2022 年 OpenAI、Midjourney、StableDiffusion 等先進(jìn) AI 工具的推出以來(lái),AIGC 得到了快速發(fā)展,內(nèi)容由 AI 生成的比例呈指數(shù)級(jí)上升,這標(biāo)志著內(nèi)容生產(chǎn)模式正從 PGC 和 UGC 向 AIGC 轉(zhuǎn)型。
此外,2022 年 12 月 16 日,Science 雜志發(fā)布了 2022 年度科學(xué)十大突破,其中 AIGC 赫然在列,標(biāo)志著其重要性和影響力。AIGC 的火爆是技術(shù)積累與發(fā)展策略雙重變革的產(chǎn)物,因此 2022 年更應(yīng)該是 AIGC 的“應(yīng)用元年”。
2. AIGC 發(fā)展歷程
正如前文提到的,AIGC 技術(shù)并不是突然出現(xiàn),而是隨著 AI 技術(shù)迭代而迎來(lái)爆發(fā)式增長(zhǎng)。我們可以將 AIGC 的發(fā)展分為四個(gè)階段,早期萌芽階段、沉淀積累階段、快速發(fā)展階段以及產(chǎn)品爆發(fā)階段。
第一階段:早期萌芽(1950s-1990s)
1950 年,艾倫·圖靈首次提出“圖靈測(cè)試”,給出判定機(jī)器是否具有“智能”的實(shí)驗(yàn)方法。但由于該時(shí)期受限于科技水平的發(fā)展,AIGC 僅限于小范圍的實(shí)驗(yàn)。
直到 1957 年,萊杰倫·希勒和倫納德·艾薩克森完成了一部由計(jì)算機(jī)創(chuàng)作的音樂(lè)作品。但直到 80 年代末至 90 年代中期,高昂的成本投入以及難以商業(yè)化的問(wèn)題,導(dǎo)致資本投入有限,所以在這個(gè)階段,AIGC 并沒(méi)有出現(xiàn)顛覆性的成果。是不是有點(diǎn)像前幾年很火熱的元宇宙概念,成本高、商業(yè)落地難。
第二階段:沉淀積累(1990s-2010s)
從這個(gè)階段開(kāi)始,AIGC 開(kāi)始從實(shí)驗(yàn)性質(zhì)轉(zhuǎn)向?qū)嵱眯浴R驗(yàn)樽?2006 年開(kāi)始,深度學(xué)習(xí)算法取得重大突破,同時(shí) GPU、CPU 等算力設(shè)備性能不斷提升,互聯(lián)網(wǎng)得到快速發(fā)展,為各類(lèi)人工智能算法提供了海量訓(xùn)練數(shù)據(jù)。
到 2007 年,世界首部完全由人工智能創(chuàng)作的小說(shuō)《1 The Road》問(wèn)世,給 AIGC 研究方向一記強(qiáng)力的定心針。
2012 年,微軟公開(kāi)展示了一個(gè)全自動(dòng)同聲傳譯系統(tǒng),通過(guò)深度神經(jīng)網(wǎng)絡(luò)(DNN)可以自動(dòng)將英文演講者的內(nèi)容通過(guò)語(yǔ)音識(shí)別、語(yǔ)言翻譯、語(yǔ)音合成等技術(shù)生成中文語(yǔ)音。如后續(xù)各大手機(jī)廠商推出的語(yǔ)音助手的 sir、小愛(ài)同學(xué)等,但此時(shí)的 AI 還不能被稱(chēng)為 AIGC。
第三階段:快速發(fā)展(2010s-2021)
自 2014 年以來(lái),生成式對(duì)抗網(wǎng)絡(luò)(GAN)等深度學(xué)習(xí)算法的提出和持續(xù)迭代,標(biāo)志著人工智能生成內(nèi)容(AIGC)進(jìn)入了一個(gè)新的時(shí)代。在這一階段,AIGC 領(lǐng)域呈現(xiàn)出多樣化的內(nèi)容生成,其效果逐漸趨向逼真,甚至達(dá)到了令人類(lèi)難以辨識(shí)的程度。同時(shí),各大廠商推出的相關(guān)產(chǎn)品或功能也進(jìn)一步證明了 AIGC 正快速發(fā)展的趨勢(shì)。
2017 年,微軟人工智能少女“小冰”推出了世界首部 100%由人工智能創(chuàng)作的詩(shī)集《陽(yáng)光失了玻璃窗》。
2018 年,英偉達(dá)推出的 StyleGAN 模型能生成高分辨率圖片。目前最新的模型 StyleGAN-T,能夠在短時(shí)間內(nèi)由文本生成大量圖像。
2019 年,DeepMind 發(fā)布了 DVD-GAN 模型用以生成連續(xù)視頻,在草地、廣場(chǎng)等明確場(chǎng)景下表現(xiàn)突出。
2021 年,OpenAI 推出了 DALL-E,并于一年后推出了升級(jí)版本 DALL-E-2,主要應(yīng)用于文本與圖像的交互生成內(nèi)容。
第四階段:產(chǎn)品爆發(fā)(2022-至今)
直到 2022 年(你沒(méi)看錯(cuò),準(zhǔn)確來(lái)講 AIGC 產(chǎn)品的爆發(fā)是在 2022 年下半場(chǎng)),多款 AI 產(chǎn)品橫空出世。Stability AI 在 2022 年 8 月發(fā)布了 Stable Diffusion 模型,而 OpenAI 于同年 11 月 30 日推出了人工智能聊天工具 ChatGPT。圖像生成工具 Midjourney 的 V1 模型更早在 2022 年 2 月首次亮相。
起初,AIGC 的討論主要集中在科技圈,但隨著 2023 年新年假期結(jié)束,GPT-4 模型在 3 月份橫空出世,其多模態(tài)輸入和媲美甚至超越人類(lèi)的表現(xiàn)在專(zhuān)業(yè)領(lǐng)域引起了廣泛關(guān)注。經(jīng)國(guó)內(nèi)外媒體大肆報(bào)道宣傳,使得 AIGC 開(kāi)始進(jìn)入互聯(lián)網(wǎng)從業(yè)者、企業(yè)高管、投資者等更多人的視野。圖像生成工具如 Midjourney 和 Stable Diffusion 也開(kāi)始在設(shè)計(jì)領(lǐng)域掀起波瀾。而我也正是在這個(gè)時(shí)期,開(kāi)始學(xué)習(xí)并在自媒體平臺(tái)上分享 AI 繪畫(huà)經(jīng)驗(yàn)。
寫(xiě)到這里也是頗為感觸,我也是吃到了 AI 發(fā)展的紅利期,往往機(jī)會(huì)就是出現(xiàn)在風(fēng)口上,能否敏銳的抓住風(fēng)口,是每一個(gè)創(chuàng)業(yè)者、媒體人必修的能力。
2023 年,隨著市場(chǎng)反饋和 AIGC 發(fā)展趨勢(shì),成百上千的 AI 產(chǎn)品涌現(xiàn),新創(chuàng)業(yè)者和老牌企業(yè)紛紛向 AIGC 轉(zhuǎn)型,AI 時(shí)代正式到來(lái),市場(chǎng)競(jìng)爭(zhēng)也變得激烈。盡管最初 AI 在視頻生成領(lǐng)域表現(xiàn)不佳,但 2024 年初 Sora 的出現(xiàn)標(biāo)志著 AI 視頻領(lǐng)域的競(jìng)爭(zhēng)正式開(kāi)始。直到現(xiàn)在(2024 年 10 月寫(xiě)文),市面上已出現(xiàn)多款 AI 視頻產(chǎn)品,如 Runway ML、Pika、LumaAI、可靈 AI、海螺、即夢(mèng)、清影等,涵蓋了音樂(lè)生成、數(shù)字人、語(yǔ)音合成等相關(guān)技術(shù),AIGC 在視頻生成領(lǐng)域的技術(shù)也日益成熟。
AI 時(shí)代的到來(lái)迫使每個(gè)人都必須擁抱 AI 技術(shù)。從市場(chǎng)角度來(lái)看,AIGC 的發(fā)展仍處于初期階段,目前正處在一個(gè)探索和驗(yàn)證的階段,如同拿著錘子找釘子。AI 大模型就像一把強(qiáng)大的“錘子”,而找到合適的“釘子”并有效地使用這把“錘子”是我們需要不斷嘗試和驗(yàn)證的。
3. AIGC 發(fā)展必備條件
從上述的發(fā)展歷程我們可以觀察到,AIGC 從初期“智能”概念的提出,到 2022 年生成式 AI 工具的爆發(fā),歷經(jīng) 70 多年,絕非偶然。它至少具備五項(xiàng)條件:模型訓(xùn)練技術(shù)創(chuàng)新、合成數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練、GPU 芯片支持以及產(chǎn)業(yè)生態(tài)的成熟,下面我將從這四項(xiàng)條件逐一展開(kāi)分析。
條件一:模型訓(xùn)練技術(shù)創(chuàng)新
人工智能行業(yè)與其他行業(yè)有所區(qū)別,人工智能領(lǐng)域依賴(lài)于開(kāi)放科學(xué)和不斷的技術(shù)創(chuàng)新。什么意思呢?就是說(shuō)優(yōu)質(zhì)模型的開(kāi)源能夠加速技術(shù)進(jìn)步,例如 OpenAI 開(kāi)源的 CLIP 多模態(tài)預(yù)訓(xùn)練模型,它結(jié)合了自然語(yǔ)言理解和計(jì)算機(jī)視覺(jué)分析,使得模型訓(xùn)練可以直接利用互聯(lián)網(wǎng)上帶有文字描述的圖片素材,這大幅降低了數(shù)據(jù)獲取的門(mén)檻。
同時(shí)也為 CLIP 模型的開(kāi)源,也為圖像生成模型如 Stable Diffusion 提供了技術(shù)基礎(chǔ)。而 Stable Diffusion 的開(kāi)源則進(jìn)一步推動(dòng)了這一趨勢(shì),降低了用戶(hù)使用 AIGC 進(jìn)行創(chuàng)作的門(mén)檻。
條件二:合成數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練
傳統(tǒng)的模型訓(xùn)練面臨數(shù)據(jù)標(biāo)注費(fèi)時(shí)費(fèi)力、準(zhǔn)確率低、樣本數(shù)量不足等問(wèn)題。生成式 AI 的發(fā)展使得模型可以產(chǎn)生合成數(shù)據(jù),這些數(shù)據(jù)又可以反哺模型訓(xùn)練,形成加速飛輪,顯著提高了訓(xùn)練效率和模型的性能。
條件三:GPU 芯片支持
AI 大模型的訓(xùn)練需要強(qiáng)大的計(jì)算能力,通常依賴(lài)于 GPU 芯片服務(wù)器。隨著芯片產(chǎn)業(yè)的不斷進(jìn)步,硬件能力也日益增強(qiáng),足以支撐起模型訓(xùn)練的算力需求,這是 AIGC 發(fā)展的關(guān)鍵因素。
NVIDIA 在芯片技術(shù)上的領(lǐng)先地位,特別是在 AIGC 爆發(fā)期,使其成為全球最有價(jià)值的公司之一。老黃(黃仁勛)也因此吃到時(shí)代的紅利,個(gè)人身價(jià)在 2024 年達(dá)到了 1090 億美元,排名全球富豪榜第 13 位。
條件四:產(chǎn)業(yè)生態(tài)的成熟
隨著 AIGC 的技術(shù)進(jìn)步,AIGC 產(chǎn)業(yè)生態(tài)逐漸成型。整體而言,目前 AIGC 產(chǎn)業(yè)生態(tài)可劃分為三部分:上游預(yù)訓(xùn)練模型開(kāi)發(fā)、中游的模型開(kāi)發(fā)及銷(xiāo)售、下游的 AI 服務(wù)應(yīng)用。
① 上游基礎(chǔ)設(shè)施
這包括數(shù)據(jù)服務(wù)板塊、算力、模型開(kāi)發(fā)訓(xùn)練平臺(tái)/計(jì)算平臺(tái)等算法基礎(chǔ)平臺(tái)。這一層的門(mén)檻很高,預(yù)訓(xùn)練模型開(kāi)發(fā)需要巨大的資金和專(zhuān)業(yè)知識(shí),因此有能力做預(yù)訓(xùn)練模型的公司主要是頭部科技企業(yè)和獨(dú)角獸公司。
② 中游模型層
模型層包括底層通用大模型、中間層模型和開(kāi)源社區(qū)。中游主要指的是模型的開(kāi)發(fā)和優(yōu)化,包括底層通用大模型的構(gòu)建、中間層模型的開(kāi)發(fā),以及開(kāi)源社區(qū)的貢獻(xiàn)。這些模型是 AIGC 產(chǎn)業(yè)的核心,它們通過(guò)各種算法和技術(shù)處理上游提供的數(shù)據(jù),生成高質(zhì)量的內(nèi)容。
③ 下游應(yīng)用層
應(yīng)用層則是在文本、音頻、圖像、視頻四類(lèi)模態(tài)的基礎(chǔ)上,發(fā)展出了策略生成和跨模態(tài)生成,并在金融、數(shù)據(jù)分析、設(shè)計(jì)等多個(gè)行業(yè)實(shí)現(xiàn)了商業(yè)應(yīng)用。
下游主要是將中游的模型應(yīng)用到具體的行業(yè)和場(chǎng)景中,如文本生成、音頻生成、圖像生成、視頻生成等,以及跨模態(tài)生成,即將一種模態(tài)的內(nèi)容轉(zhuǎn)換成另一種模態(tài),例如將文本描述轉(zhuǎn)換為圖像。
AIGC 技術(shù)與 AI 的發(fā)展密不可分,所以我們需要理解 AI 技術(shù)的演進(jìn)才能更容易的吸收 AIGC 的技術(shù)原理。
1950 年,艾倫·圖靈發(fā)表了一篇?jiǎng)潟r(shí)代的論文《計(jì)算機(jī)器與智能》,文中提出了著名的圖靈測(cè)試:“如果一臺(tái)機(jī)器能夠與人類(lèi)展開(kāi)對(duì)話(huà),而保證其機(jī)器身份不被識(shí)破,那么就可以認(rèn)為這臺(tái)機(jī)器具有智能。
雖然此時(shí)圖靈已經(jīng)從理論角度給出了機(jī)器擁有智能的可能性,但 AI 正式發(fā)展成一門(mén)專(zhuān)業(yè)學(xué)科則是在 1956 年的達(dá)特茅斯會(huì)議,在這次會(huì)議上,“人工智能”的名稱(chēng)與概念正式確立,因此這次會(huì)議也被廣泛認(rèn)為是人工智能誕生的標(biāo)志,開(kāi)啟了人工智能領(lǐng)域曲折向上的技術(shù)發(fā)展之路。
如果我們繼續(xù)深挖下去,并要理解后面出現(xiàn)的多種 AIGC 技術(shù)相關(guān)的專(zhuān)業(yè)名詞(如深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、生成式對(duì)抗網(wǎng)絡(luò)等),就需要先對(duì)早期人工智能誕生的三種發(fā)展流派有所了解。
1. AI 技術(shù)發(fā)展的三種流派
在人工智能誕生早期,出現(xiàn)了三大流派:符號(hào)主義、聯(lián)結(jié)主義和行為主義。這三大流派就類(lèi)似江湖上的武林幫派,比如武當(dāng)派、少林派、峨嵋派等。這些流派相愛(ài)相殺、互相競(jìng)爭(zhēng)又互相合作。這三種流派共同構(gòu)成了人工智能早期的理論基礎(chǔ),并影響了后來(lái)人工智能的發(fā)展。
① 符號(hào)主義
符號(hào)主義認(rèn)為人類(lèi)的一切活動(dòng)(包括智力和體力)都是符合某種邏輯的,所有信息都可以抽象為各種符號(hào)。而人類(lèi)的認(rèn)知過(guò)程可以看作是運(yùn)用邏輯規(guī)則操作這些符號(hào)的過(guò)程,所以符號(hào)主義又叫邏輯主義。但是一旦涉及到非邏輯思維,那么它可能就會(huì)干瞪眼,沒(méi)辦法進(jìn)行推理了。
② 聯(lián)結(jié)主義
聯(lián)結(jié)主義認(rèn)為智能的關(guān)鍵不在于讓電腦等機(jī)器實(shí)現(xiàn)智力活動(dòng),而是應(yīng)該模仿人腦的結(jié)構(gòu),即神經(jīng)元之間的聯(lián)結(jié),所以聯(lián)結(jié)主義又叫仿生學(xué)派。這派觀點(diǎn)認(rèn)為智能是大腦中神經(jīng)元網(wǎng)絡(luò)共同處理信息的結(jié)果,通過(guò)計(jì)算機(jī)模擬神經(jīng)網(wǎng)絡(luò)的工作模式來(lái)實(shí)現(xiàn)人工智能。但是這個(gè)是有賴(lài)于人類(lèi)對(duì)自身神經(jīng)系統(tǒng)的了解程度,到目前為止我們還沒(méi)法對(duì)這個(gè)神經(jīng)系統(tǒng)完全了解。
③ 行為主義
行為主義起源于控制論,強(qiáng)調(diào)模擬人在控制過(guò)程中的智能行為和動(dòng)作。這就有點(diǎn)像我們?nèi)伺c人之間的交流、溝通、沖突、合作出現(xiàn)的這種自適應(yīng)機(jī)制。但是限于時(shí)代和科技發(fā)展,行為主義直到上世紀(jì)末,隨著智能控制與機(jī)器人逐漸興起才引起重視。
總結(jié)一下,符號(hào)主義擅長(zhǎng)知識(shí)推理、聯(lián)結(jié)主義擅長(zhǎng)知識(shí)建模、行為主義擅長(zhǎng)感知+行動(dòng)。而三者的融合發(fā)展,或許才是未來(lái)人工智能發(fā)展的大勢(shì)所趨。
那么是哪些技術(shù)促進(jìn) AI 生成的內(nèi)容發(fā)展呢?你可能在某篇文章、某條視頻或某條論文里刷到過(guò)這些詞匯,如機(jī)器學(xué)習(xí)、監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等等,那么它們有什么關(guān)系呢?別急,下來(lái)我會(huì)一一來(lái)解釋?zhuān)?dāng)你理解了這些技術(shù)原理,那么你將對(duì) AI 會(huì)有一個(gè)更深入的認(rèn)識(shí)。
2. 機(jī)器學(xué)習(xí)理論
① 機(jī)器學(xué)習(xí)介紹
1950 年,也是本文出現(xiàn)多次的老前輩圖靈,在他的論文《計(jì)算機(jī)器與智能》中提出了“學(xué)習(xí)機(jī)器”的概念,強(qiáng)調(diào)與其去編程模擬成人的大腦,還不如選擇更簡(jiǎn)單的兒童大腦,通過(guò)輔之以懲罰和獎(jiǎng)勵(lì)的教學(xué)過(guò)程,讓機(jī)器在學(xué)習(xí)后具備智能。
舉個(gè)栗子,如果我們通過(guò)編程代碼告訴電腦,圖片里有紅色的物體說(shuō)明是蘋(píng)果,圖片里有黃色的物體說(shuō)明是香蕉。那程序?qū)λ?lèi)的判斷就是通過(guò)人類(lèi)直接明確編寫(xiě)的邏輯達(dá)成的,而這不屬于機(jī)器學(xué)習(xí),因?yàn)闄C(jī)器并沒(méi)有進(jìn)行學(xué)習(xí)。
再舉個(gè)栗子,如果我們給電腦喂大量的蘋(píng)果和香蕉的圖片,讓電腦自行識(shí)別判斷,總結(jié)規(guī)律,從而能對(duì)未見(jiàn)過(guò)的圖片進(jìn)行預(yù)測(cè)和判斷,這才是機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)模型的訓(xùn)練過(guò)程可分為以下四步:
- 數(shù)據(jù)獲取:需要收集和準(zhǔn)備用于訓(xùn)練模型的數(shù)據(jù)。這些數(shù)據(jù)可以來(lái)自數(shù)據(jù)庫(kù)、文件、網(wǎng)絡(luò)等,數(shù)據(jù)的質(zhì)量會(huì)直接影響模型的性能;
- 特征工程:從原始數(shù)據(jù)中提取出有助于模型做出預(yù)測(cè)的特征,目的是使數(shù)據(jù)更適合機(jī)器學(xué)習(xí)算法處理,從而提高模型的性能;
- 模型訓(xùn)練:使用特征工程處理過(guò)的數(shù)據(jù)來(lái)訓(xùn)練模型,并根據(jù)算法生成模型;
- 評(píng)估與應(yīng)用:將訓(xùn)練好的模型應(yīng)用在需要執(zhí)行的任務(wù)上并評(píng)估其表現(xiàn),通常涉及到使用測(cè)試集(在訓(xùn)練過(guò)程中未見(jiàn)過(guò)的數(shù)據(jù))來(lái)評(píng)估模型的準(zhǔn)確性和其他性能指標(biāo)。如果模型的性能達(dá)到了預(yù)期,它就可以被部署到實(shí)際應(yīng)用中,用于做出預(yù)測(cè)或決策。
② 監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)
機(jī)器學(xué)習(xí)又可以簡(jiǎn)單的劃分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),它們?cè)谟?xùn)練數(shù)據(jù)的類(lèi)型和學(xué)習(xí)目標(biāo)上有所不同。
監(jiān)督學(xué)習(xí):
監(jiān)督學(xué)習(xí)的目標(biāo)是學(xué)習(xí)輸入數(shù)據(jù)和輸出標(biāo)簽之間的映射關(guān)系,以便能夠?qū)π碌?、未?jiàn)過(guò)的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。
監(jiān)督學(xué)習(xí)好比,在學(xué)校里,小言每次做完題目后,老師會(huì)進(jìn)行題目進(jìn)行批改,讓小言知道每道題是否答對(duì)。
監(jiān)督學(xué)習(xí)通常用于分類(lèi)和回歸問(wèn)題。
- 分類(lèi):在分類(lèi)問(wèn)題中,模型的目標(biāo)是預(yù)測(cè)離散的類(lèi)別標(biāo)簽。比如用一些貓和狗的圖片對(duì)應(yīng)貓狗的標(biāo)簽進(jìn)行訓(xùn)練,然后用模型未見(jiàn)過(guò)的圖片預(yù)測(cè)是貓還是狗。
- 回歸:在回歸問(wèn)題中,模型的目標(biāo)是預(yù)測(cè)連續(xù)的數(shù)值。比如用一些房子特征的數(shù)據(jù)(房子面積、客廳、陽(yáng)臺(tái)等),然后用模型未見(jiàn)過(guò)的房子圖片預(yù)測(cè)房?jī)r(jià)。
無(wú)監(jiān)督學(xué)習(xí):
無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)中的模式和結(jié)構(gòu),而不是對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。
無(wú)監(jiān)督學(xué)習(xí)好比老師把大量的題目直接丟給小言同學(xué),讓小言在題海中自己發(fā)現(xiàn)題目規(guī)律,當(dāng)題量足夠大的時(shí)候,小言雖然不能完全理解每道題,但也會(huì)發(fā)現(xiàn)一些知識(shí)點(diǎn)的固定的選項(xiàng)表述。
無(wú)監(jiān)督學(xué)習(xí)通常用于聚類(lèi)和關(guān)聯(lián)規(guī)則學(xué)習(xí)問(wèn)題。
- 聚類(lèi):在聚類(lèi)問(wèn)題中,模型的目標(biāo)是將數(shù)據(jù)進(jìn)行分組,使得同一組內(nèi)的數(shù)據(jù)點(diǎn)相似度高,不同組之間的數(shù)據(jù)點(diǎn)相似度低。
- 關(guān)聯(lián)規(guī)則學(xué)習(xí):關(guān)聯(lián)規(guī)則學(xué)習(xí)中,模型尋找數(shù)據(jù)特征之間的關(guān)聯(lián)規(guī)則。
③ 感知器與神經(jīng)網(wǎng)絡(luò)算法
在機(jī)器學(xué)習(xí)領(lǐng)域,監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)是兩種最基礎(chǔ)且易于掌握的方法。而監(jiān)督學(xué)習(xí)就是感知器算法的典型案例之一,它是構(gòu)建人工神經(jīng)網(wǎng)絡(luò)的基石。
我們通過(guò)一個(gè)例子來(lái)簡(jiǎn)化感知器的工作原理,這其中不涉及復(fù)雜的數(shù)學(xué)公式。
想象小言在大學(xué)選修了一門(mén)課程,他想通過(guò)收集過(guò)往學(xué)生的成績(jī)數(shù)據(jù)來(lái)預(yù)測(cè)自己是否會(huì)掛科。他首先設(shè)定了一個(gè)評(píng)分公式:第一次作業(yè)(占 30%)+第二次作業(yè)(占 30%)+考試(占 40%)=課程評(píng)分。如果評(píng)分達(dá)到或超過(guò) 60 分,就及格;否則,掛科。
小言嘗試將這個(gè)公式應(yīng)用于收集的數(shù)據(jù),但發(fā)現(xiàn)要么所有人都不及格,要么所有人都及格。這說(shuō)明他需要調(diào)整作業(yè)和考試的權(quán)重。通過(guò)不斷調(diào)整,小言最終找到了合適的權(quán)重,能夠準(zhǔn)確預(yù)測(cè)學(xué)生是否會(huì)掛科。
這個(gè)過(guò)程可以由一個(gè)簡(jiǎn)單的感知器程序來(lái)完成。在這個(gè)程序中,作業(yè)和考試的成績(jī)作為輸入節(jié)點(diǎn),相當(dāng)于神經(jīng)元接收信息。判斷是否掛科的輸出節(jié)點(diǎn)也是一個(gè)神經(jīng)元。計(jì)算合格與否的函數(shù)稱(chēng)為激勵(lì)函數(shù)。輸入和輸出節(jié)點(diǎn)之間的信號(hào)傳遞由評(píng)分公式計(jì)算,信號(hào)的強(qiáng)弱由成績(jī)對(duì)應(yīng)的權(quán)重決定。通過(guò)調(diào)整這些權(quán)重,模型學(xué)會(huì)了如何分類(lèi)。
人工神經(jīng)網(wǎng)絡(luò)是一種多層感知器,它不僅包括輸入層和輸出層,還引入了多個(gè)隱藏層。這些隱藏層的神經(jīng)元可以與輸入層和輸出層的神經(jīng)元相連,每個(gè)連接都有一個(gè)特定的權(quán)重系數(shù)。這樣的設(shè)計(jì)使得網(wǎng)絡(luò)能夠捕捉到更復(fù)雜的數(shù)據(jù)模式和關(guān)系。
隱藏層的引入是為了處理現(xiàn)實(shí)世界中的復(fù)雜性。在現(xiàn)實(shí)世界中,問(wèn)題往往不是簡(jiǎn)單的黑白對(duì)立,而是存在許多灰色地帶和變化。隱藏層使得神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)這些復(fù)雜的變化,從而提高模型的預(yù)測(cè)能力和泛化能力。通過(guò)在隱藏層中增加更多的神經(jīng)元,網(wǎng)絡(luò)可以學(xué)習(xí)更復(fù)雜的函數(shù)映射,解決更復(fù)雜的問(wèn)題。
總結(jié)來(lái)說(shuō),感知器算法通過(guò)調(diào)整輸入權(quán)重來(lái)學(xué)習(xí)分類(lèi)任務(wù),而人工神經(jīng)網(wǎng)絡(luò)則在此基礎(chǔ)上進(jìn)行更復(fù)雜的學(xué)習(xí)。在訓(xùn)練過(guò)程中,需要平衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn),以達(dá)到最佳的學(xué)習(xí)效果。
④ 強(qiáng)化學(xué)習(xí)算法
強(qiáng)化學(xué)習(xí)是 AIGC、大模型最核心的技術(shù)之一。2016 年 3 月,由谷歌 DeepMind 公司開(kāi)發(fā)的人工智能程序 AlphaGo 在五局三勝制的比賽中以 4 比 1 的總比分戰(zhàn)勝了世界圍棋冠軍李世石。而這臺(tái) AI 程序訓(xùn)練的過(guò)程就結(jié)合了強(qiáng)化學(xué)習(xí)的技術(shù),自我對(duì)弈不斷提高自己的水平。
簡(jiǎn)單介紹下強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它主要關(guān)注如何在環(huán)境中采取行動(dòng),來(lái)達(dá)成長(zhǎng)期累計(jì)收益最大化的目標(biāo)。與監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)不是直接從數(shù)據(jù)中學(xué)習(xí),而是通過(guò)智能體(Agent)與環(huán)境(Environment)的交互來(lái)學(xué)習(xí)。
我們用一個(gè)《超級(jí)馬里奧》游戲的例子來(lái)說(shuō)明強(qiáng)化學(xué)習(xí)的概念,在這個(gè)游戲例子中,智能體就是馬里奧,環(huán)境是整個(gè)《超級(jí)馬里奧》的游戲世界。
- 智能體:馬里奧是玩家控制的角色,他需要在游戲世界中做出各種決策,比如跳躍、奔跑、收集金幣等。
- 環(huán)境:包括不同的關(guān)卡、敵人、障礙物、金幣、道具等。馬里奧在這個(gè)世界中進(jìn)行探索和交互。
- 狀態(tài):狀態(tài)描述了游戲世界在任何給定時(shí)刻的具體情況。對(duì)于馬里奧來(lái)說(shuō),狀態(tài)可能包括他的位置、速度、是否處于無(wú)敵狀態(tài)、敵人的位置、金幣的數(shù)量等。
- 行動(dòng):行動(dòng)是馬里奧可以執(zhí)行的操作,比如:向右移動(dòng)、向左移動(dòng)、跳躍、靜止不動(dòng)、蹲下、使用道具等。
- 獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)是馬里奧執(zhí)行行動(dòng)后從環(huán)境中獲得的反饋。比如收集金幣+200 分、擊敗敵人+100 分、到達(dá)旗桿:+1000 分(并進(jìn)入下一關(guān))、掉入深淵或被敵人擊中:-1 條命。
- 目標(biāo):馬里奧的最終目標(biāo)是完成所有關(guān)卡,救出公主。在強(qiáng)化學(xué)習(xí)中,這個(gè)目標(biāo)可以被轉(zhuǎn)化為最大化累積獎(jiǎng)勵(lì),比如通過(guò)盡可能多地收集金幣、擊敗敵人和快速通關(guān)。
- 策略:策略是馬里奧根據(jù)當(dāng)前狀態(tài)決定采取的行動(dòng)的規(guī)則。一個(gè)好的策略會(huì)告訴馬里奧在特定狀態(tài)下應(yīng)該采取哪個(gè)行動(dòng)以最大化獎(jiǎng)勵(lì)。
- 價(jià)值:價(jià)值函數(shù)預(yù)測(cè)從某個(gè)狀態(tài)出發(fā),遵循特定策略所能獲得的累積獎(jiǎng)勵(lì)。例如,馬里奧可能會(huì)評(píng)估在某個(gè)位置跳躍的價(jià)值,以確定這是否是一個(gè)高價(jià)值的行動(dòng)。
所以強(qiáng)化學(xué)習(xí)的過(guò)程又可以分為以下幾點(diǎn):
- 觀測(cè):馬里奧觀測(cè)當(dāng)前關(guān)卡的狀態(tài)。
- 決策:根據(jù)觀測(cè)到的狀態(tài)和學(xué)習(xí)到的策略,馬里奧決定是跳躍、奔跑還是收集金幣。
- 執(zhí)行:馬里奧執(zhí)行選定的行動(dòng)。
- 反饋:環(huán)境對(duì)馬里奧的行動(dòng)給出反饋,比如得分增加或生命減少。
- 學(xué)習(xí):馬里奧根據(jù)反饋更新其策略,比如如果跳躍總是導(dǎo)致掉入深淵,他可能會(huì)學(xué)習(xí)到在那個(gè)位置應(yīng)該奔跑而不是跳躍。
通過(guò)這個(gè)過(guò)程,馬里奧(智能體)學(xué)習(xí)如何在《超級(jí)馬里奧》(環(huán)境)中導(dǎo)航,以最大化他的得分(獎(jiǎng)勵(lì)),并最終達(dá)成救出公主的目標(biāo)。
常見(jiàn)的強(qiáng)化學(xué)習(xí)應(yīng)用場(chǎng)景如智能駕駛、智能機(jī)器人、游戲世界(如 NPC)以及 AIGC 大模型等。那通過(guò)這個(gè)章節(jié)的介紹,你是不是就能理解為什么 AlphaGo 能戰(zhàn)勝世界圍棋冠軍。因?yàn)槿耸菚?huì)疲憊、犯錯(cuò)的,而機(jī)器程序如一臺(tái)永動(dòng)機(jī),只要不斷電,它就能一直學(xué)習(xí)下去。
⑤ 深度學(xué)習(xí)算法
在機(jī)器學(xué)習(xí)中,選擇合適的特征對(duì)模型訓(xùn)練至關(guān)重要。但在某些情況下,如圖像和文本處理,直接提取有效特征非常困難。機(jī)器需要學(xué)習(xí)的是數(shù)據(jù)中的深層關(guān)系,而非簡(jiǎn)單的表面特征。人類(lèi)無(wú)法處理這種深層特征提取,因此需要依賴(lài)深度神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)完成這一任務(wù)。
深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),它使用具有多層結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)來(lái)模擬人腦處理信息的方式,從而學(xué)習(xí)數(shù)據(jù)中的復(fù)雜模式和關(guān)系。作為機(jī)器學(xué)習(xí)的一個(gè)分支,深度學(xué)習(xí)特別擅長(zhǎng)處理和分析大規(guī)模數(shù)據(jù)集。深度學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)的關(guān)系如圖:
最后總結(jié)一下,深度學(xué)習(xí)算法可以結(jié)合監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)來(lái)提高模型性能,而目前大部分 AIGC 模型的主體基本上都是深度強(qiáng)化學(xué)習(xí)模型。
3. Transformer 架構(gòu)
Transformer 架構(gòu)是一種深度學(xué)習(xí)模型,由 Google 公司于 2017 年在論文“Attention is All You Need”中提出的網(wǎng)絡(luò)架構(gòu)。該架構(gòu)最初的設(shè)計(jì)目的是解決 RNN(Recurrent NeuralNetwork,循環(huán)神經(jīng)網(wǎng)絡(luò))串行輸入、串行編解碼導(dǎo)致的運(yùn)行速度緩慢的問(wèn)題,以顯著提升機(jī)器翻譯的效率。得益于 Transformer 優(yōu)秀的并行處理能力,越來(lái)越多的模型以 Transformer 為基礎(chǔ)進(jìn)行構(gòu)建,包括 GPT 系列模型和 BERT 模型。
目前市面上大部分的大語(yǔ)言模型都是基于 Transformer 架構(gòu)開(kāi)發(fā)的,它相當(dāng)于是大模型的基座,無(wú)比重要。如果要對(duì) Transformer 進(jìn)行詳細(xì)說(shuō)明,可能需要重新寫(xiě)一篇文章才行,本文大家先對(duì) Transformer 有一個(gè)基礎(chǔ)的認(rèn)知即可。
1. 文本生成模型
① 大語(yǔ)言模型介紹
這個(gè)小節(jié)我們介紹大語(yǔ)言模型,也可能是大家最熟悉的詞匯。簡(jiǎn)單介紹一下,大語(yǔ)言模型(Large Language Model)簡(jiǎn)稱(chēng) LLM,是大模型的一個(gè)子集,專(zhuān)門(mén)指在自然語(yǔ)言處理領(lǐng)域中使用的、參數(shù)數(shù)量巨大的模型。其中自然語(yǔ)言指的是人類(lèi)在日常生活中用來(lái)交流的語(yǔ)言。
再介紹下大模型,大模型通常指的是在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域中,擁有大量參數(shù)的模型,比如深度學(xué)習(xí)模型、神經(jīng)網(wǎng)絡(luò)模型等。
所以我們前面介紹的技術(shù)原理都是與大語(yǔ)言模型息息相關(guān)的,由多種技術(shù)的結(jié)合、演進(jìn)、嘗試,就發(fā)展成為如今的 AIGC 時(shí)代。大語(yǔ)言模型的應(yīng)用例子有非常多,比如國(guó)外的 ChatGPT、Claude、LaMDA 等,國(guó)內(nèi)的文心一言、豆包、Kimi 等。
但并不是所有的 AIGC 都是屬于大語(yǔ)言模型,像生圖的擴(kuò)散模型就不屬于這一類(lèi),它并不輸出文本,后文會(huì)介紹。
② 大語(yǔ)言模型生成原理
給大語(yǔ)言模型輸入文本內(nèi)容,它能返還相應(yīng)的輸出完成具體任務(wù)。完成的任務(wù)可以是文章總結(jié)、論文改寫(xiě)、信息生成、語(yǔ)言翻譯等。
大語(yǔ)言模型首先需要通過(guò)大量的文本進(jìn)行無(wú)監(jiān)督學(xué)習(xí),以 GPT 3 為例,它的訓(xùn)練數(shù)據(jù)有多個(gè)互聯(lián)網(wǎng)文本語(yǔ)料庫(kù)。覆蓋線(xiàn)上書(shū)籍,新聞文章,科學(xué)論文,維基百科,社交媒體帖子等等,借助海量的訓(xùn)練文本數(shù)據(jù)。從而更好的理解文本的含義,并生成更準(zhǔn)確的預(yù)測(cè)。
但大語(yǔ)言模型的大指的不僅僅是訓(xùn)練數(shù)據(jù)巨大,而是參數(shù)數(shù)量巨大。參數(shù)是模型內(nèi)部的變量??梢岳斫鉃槭悄P驮谟?xùn)練過(guò)程中學(xué)到的知識(shí)參數(shù),決定了模型如何對(duì)輸入數(shù)據(jù)做出反應(yīng),從而決定模型的行為。在過(guò)去的語(yǔ)言模型研究中發(fā)現(xiàn),用更多的數(shù)據(jù)和算力來(lái)訓(xùn)練具有更多參數(shù)的模型,很多時(shí)候能帶來(lái)更好的模型表現(xiàn)。
比如要 AI 學(xué)習(xí)做一道中式菜,只允許 AI 調(diào)整鹽、胡椒和基本調(diào)料的量,與允許 AI 調(diào)整鹽、胡椒、各種香料(如孜然、肉桂、姜黃)、不同的食材(如肉類(lèi)、蔬菜、豆類(lèi))、烹飪方法(如炒、煮、烤)以及火候和時(shí)間,后者由于可以調(diào)整的變量更多,更能讓 AI 模仿做出更豐富的菜肴。
當(dāng)前語(yǔ)言模型的參數(shù)數(shù)量已經(jīng)達(dá)到了過(guò)去模型的數(shù)萬(wàn)甚至數(shù)百萬(wàn)倍。以 OpenAI 的 GPT 系列為例,GPT-1 擁有 1.17 億個(gè)參數(shù),GPT-2 的參數(shù)數(shù)量增至 15 億,而 GPT-3 的參數(shù)量更是激增至 1750 億。這種參數(shù)規(guī)模的增長(zhǎng)賦予了大型模型更廣泛的應(yīng)用能力,它們不再局限于單一或少數(shù)任務(wù),而是能夠處理多種復(fù)雜的語(yǔ)言處理任務(wù)。
在此之前,為了執(zhí)行總結(jié)、分類(lèi)、信息提取等不同任務(wù),我們可能需要訓(xùn)練多個(gè)專(zhuān)門(mén)的模型。但現(xiàn)在,一個(gè)大型模型就能夠勝任這些任務(wù),顯著提高了效率和靈活性?;谶@種強(qiáng)大能力的 AI 聊天助手,如 Chad GPT、Cloude、Kimi、文心一言等,都是大語(yǔ)言模型應(yīng)用的實(shí)例,它們能夠提供更加豐富和智能的交互體驗(yàn)。
而提到大語(yǔ)言模型,就繞不開(kāi) Transformer 架構(gòu),2017 年由谷歌的研究人員在論文《Attention Is All You Need》中首次提出。這種架構(gòu)徹底改變了自然語(yǔ)言處理(NLP)領(lǐng)域,特別是在處理序列到序列(seq2seq)任務(wù)時(shí),如機(jī)器翻譯、文本摘要、問(wèn)答系統(tǒng)等。
③ 大語(yǔ)言模型關(guān)鍵技術(shù)
大語(yǔ)言模型的發(fā)展離不開(kāi)多種技術(shù)的支持,這些技術(shù)在大模型的開(kāi)發(fā)和應(yīng)用中扮演著至關(guān)重要的角色,它們使得模型能夠更加智能、靈活地處理各種復(fù)雜的任務(wù)和挑戰(zhàn)。
- 遷移學(xué)習(xí):通過(guò)將一個(gè)領(lǐng)域的知識(shí)遷移到另一個(gè)領(lǐng)域,提高模型在新任務(wù)上的性能。
- 零樣本學(xué)習(xí):使模型能夠識(shí)別從未見(jiàn)過(guò)的數(shù)據(jù)類(lèi)別,增強(qiáng)模型的泛化能力。
- 小樣本學(xué)習(xí):通過(guò)少量樣本進(jìn)行學(xué)習(xí),與提示詞結(jié)合使用,提高模型的輸出質(zhì)量。
- 持續(xù)學(xué)習(xí):在一系列任務(wù)上訓(xùn)練模型,保留舊任務(wù)知識(shí)的同時(shí)學(xué)習(xí)新任務(wù)。
- 多任務(wù)學(xué)習(xí):并行學(xué)習(xí)多個(gè)任務(wù),共享表征信息,提高模型的泛化能力。
- 強(qiáng)化學(xué)習(xí):通過(guò)人類(lèi)反饋來(lái)調(diào)整模型行為,使其與人類(lèi)價(jià)值觀對(duì)齊。
- 上下文學(xué)習(xí):模型根據(jù)測(cè)試集的輸入生成預(yù)測(cè)結(jié)果,而不需要針對(duì)特定任務(wù)調(diào)整參數(shù)。
- 思維鏈:通過(guò)詳細(xì)的推理過(guò)程提示詞激發(fā)模型的多步推理能力。
- 提示工程:通過(guò)設(shè)計(jì)合適的提示詞來(lái)引導(dǎo)模型生成更好的結(jié)果,而不需要修改模型參數(shù)。
④ 主流的 AI 生文模型
免死金牌:以上信息均為個(gè)人整理,旨在輔助讀者更深入地理解相關(guān)章節(jié)內(nèi)容。請(qǐng)注意,這些資料不涉及任何商業(yè)目的或用途。
2. 圖像生成模型
① GAN(生成對(duì)抗網(wǎng)絡(luò))介紹
介紹 Diffusion 模型之前,我們需要先對(duì)有所了解,它是早期在生成圖像領(lǐng)域被大量應(yīng)用的算法之一,并且至今仍然被許多 AIGC 應(yīng)用所采用。
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,簡(jiǎn)稱(chēng) GAN)是一種深度學(xué)習(xí)模型,由 Ian Goodfellow 等人在 2014 年提出。GAN 通過(guò)模擬生成數(shù)據(jù)與判別數(shù)據(jù)之間的對(duì)抗過(guò)程,用于生成新的數(shù)據(jù)樣本,這些樣本在統(tǒng)計(jì)上與真實(shí)數(shù)據(jù)不可區(qū)分。GAN 的核心思想是利用兩個(gè)神經(jīng)網(wǎng)絡(luò),生成器(Generator)和判別器(Discriminator)之間的競(jìng)爭(zhēng)來(lái)提高生成數(shù)據(jù)的質(zhì)量。
生成器的作用是接收隨機(jī)噪聲作為輸入,并生成盡可能接近真實(shí)數(shù)據(jù)的樣本。在圖像生成的例子中,生成器會(huì)嘗試創(chuàng)建看起來(lái)像真實(shí)圖片的圖像。生成器的目標(biāo)是欺騙判別器,使其認(rèn)為生成的樣本是真實(shí)的。
判別器的任務(wù)是區(qū)分生成器生成的樣本和真實(shí)樣本。它接收生成的樣本和真實(shí)樣本作為輸入,并輸出一個(gè)概率值,表示輸入樣本是真實(shí)的概率。判別器的目標(biāo)是盡可能準(zhǔn)確地識(shí)別出哪些樣本是生成的,哪些是真實(shí)的。
GAN 的訓(xùn)練過(guò)程可以看作是生成器和判別器之間的一場(chǎng)對(duì)抗游戲:
固定生成器,更新判別器:在這個(gè)階段,生成器的參數(shù)保持不變,判別器通過(guò)比較真實(shí)樣本和生成樣本來(lái)學(xué)習(xí)如何更好地區(qū)分它們。判別器的目標(biāo)是最大化其正確分類(lèi)真實(shí)樣本和生成樣本的能力。
固定判別器,更新生成器:在這個(gè)階段,判別器的參數(shù)保持不變,生成器通過(guò)嘗試生成更高質(zhì)量的樣本來(lái)欺騙判別器。生成器的目標(biāo)是最小化判別器將其生成的樣本分類(lèi)為假的概率。
這兩個(gè)步驟交替進(jìn)行,直到生成器生成的樣本足夠好,以至于判別器無(wú)法區(qū)分真假樣本。
GAN 在多個(gè)領(lǐng)域都有廣泛的應(yīng)用,尤其是在圖像生成領(lǐng)域。它可以用來(lái)生成高質(zhì)量的圖像,如人臉、風(fēng)景、藝術(shù)作品等。此外,GAN 也被用于圖像到圖像的轉(zhuǎn)換、風(fēng)格遷移、數(shù)據(jù)增強(qiáng)、圖像超分辨率等領(lǐng)域。盡管 GAN 在文本生成方面也有所嘗試,但由于其對(duì)離散數(shù)據(jù)的處理能力相對(duì)較弱,因此在文本領(lǐng)域的應(yīng)用不如圖像領(lǐng)域廣泛。
① Diffusion 模型介紹
Diffusion 模型又叫“擴(kuò)散模型”,是一種應(yīng)用于細(xì)粒度圖像生成的模型,它通過(guò)模擬物理擴(kuò)散過(guò)程來(lái)生成數(shù)據(jù),特別是在圖像生成領(lǐng)域表現(xiàn)出色。比如大家所熟知的 StableDiffusion、Midjourney、DALL·E 2 等 AI 繪畫(huà)工具,就是在 Diffusion 模型和 Clip 模型(后文介紹)技術(shù)上開(kāi)發(fā)的。
前文出現(xiàn)的《太空歌劇院》圖像,底層技術(shù)模型就涉及 Diffusion 模型。
Diffusion 模型的核心思想是模擬一個(gè)從有序到無(wú)序再到有序的過(guò)程。具體來(lái)說(shuō),這個(gè)過(guò)程包括兩個(gè)主要階段:
正向擴(kuò)散:從一個(gè)清晰的數(shù)據(jù)點(diǎn)(例如一張圖像)開(kāi)始,逐漸添加噪聲,直到數(shù)據(jù)完全變成噪聲。這個(gè)過(guò)程可以看作是一個(gè)逐步破壞數(shù)據(jù)結(jié)構(gòu)的過(guò)程,每一步都讓數(shù)據(jù)更加無(wú)序。
逆向擴(kuò)散:從噪聲數(shù)據(jù)開(kāi)始,逐步去除噪聲,恢復(fù)出原始的清晰數(shù)據(jù)。這個(gè)過(guò)程需要模型學(xué)習(xí)如何從噪聲中恢復(fù)出有意義的結(jié)構(gòu)。
一句話(huà)總結(jié),Diffusion 模型的核心思想是學(xué)習(xí)從噪聲中逐步恢復(fù)出清晰圖像的過(guò)程,從而實(shí)現(xiàn)高質(zhì)量的圖像生成。
② CLIP 模型介紹
CLIP 模型是由 OpenAI 在 2021 年發(fā)布的一種多模態(tài)預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),它通過(guò)對(duì)比學(xué)習(xí)的方式,將圖像和文本映射到同一個(gè)向量空間中,從而使得模型能夠理解圖像和文本之間的語(yǔ)義關(guān)系。
CLIP 模型結(jié)構(gòu)包含兩個(gè)主要部分:
- 文本編碼器(Text Encoder):用于將文本轉(zhuǎn)換為低維向量表示,通常采用 Transformer 架構(gòu)。
- 圖像編碼器(Image Encoder):用于將圖像轉(zhuǎn)換為類(lèi)似的向量表示,可以是卷積神經(jīng)網(wǎng)絡(luò)(深度學(xué)習(xí)算法)或視覺(jué)變換器。
③ Diffusion 模型生成原理
CLIP 模型與 Diffusion 模型是相互結(jié)合使用的,主要體現(xiàn)在 AI 繪畫(huà)和圖像生成領(lǐng)域。CLIP 模型通過(guò)對(duì)比學(xué)習(xí)的方式,將圖像和文本映射到同一向量空間中,使得模型能夠理解圖像和文本之間的語(yǔ)義關(guān)系。而 Diffusion 模型則通過(guò)模擬物理擴(kuò)散過(guò)程來(lái)生成數(shù)據(jù),特別適用于圖像生成任務(wù)。
在結(jié)合使用時(shí),CLIP 模型的文本編碼器部分通常被用來(lái)將用戶(hù)的文本輸入轉(zhuǎn)換為一系列的特征向量,這些特征向量捕捉了文本的語(yǔ)義信息,并可以與圖像信息相結(jié)合,以指導(dǎo)圖像的生成過(guò)程。
Diffusion 模型則利用這些文本特征向量作為條件,生成與文本描述相匹配的圖像。這種結(jié)合可以實(shí)現(xiàn)文本引導(dǎo)的圖像生成,即根據(jù)文本提示生成相應(yīng)的圖像內(nèi)容。
例如,在 Stable Diffusion 模型中,CLIP 模型的文本編碼器被用來(lái)將用戶(hù)的文本輸入轉(zhuǎn)換為特征向量,這些向量與隨機(jī)噪聲圖像一起被送入模型的后續(xù)部分,如圖像信息創(chuàng)建器和圖像解碼器,以生成與文本描述相匹配的圖像。
此外,CLIP 模型還可以用于圖像引導(dǎo)的文本生成,以及視頻內(nèi)容生成等更復(fù)雜的任務(wù)。隨著多模態(tài)模型的發(fā)展,CLIP 可能與視頻生成模型結(jié)合,產(chǎn)生復(fù)雜的圖像或視頻內(nèi)容,這在未來(lái)的電影、游戲、廣告等領(lǐng)域具有廣泛的應(yīng)用潛力。
總的來(lái)說(shuō),CLIP 模型與 Diffusion 模型的結(jié)合,為 AI 繪畫(huà)和圖像生成領(lǐng)域帶來(lái)了新的可能性,使得模型能夠更好地理解和生成與文本描述相匹配的圖像內(nèi)容。
④ 主流的 AI 生圖模型
免死金牌:以上信息均為個(gè)人整理,旨在輔助讀者更深入地理解相關(guān)章節(jié)內(nèi)容。請(qǐng)注意,這些資料不涉及任何商業(yè)目的或用途。
3. 視頻生成模型
① 視頻生成模型介紹
AI 視頻模型的熱潮在 2024 年 2 月被點(diǎn)燃,當(dāng)時(shí) OpenAI 推出了 Sora,這是一個(gè)創(chuàng)新的文生視頻模型,能夠生成長(zhǎng)達(dá)一分鐘、高清晰度且連貫性高的視頻內(nèi)容,這在視頻生成領(lǐng)域是一個(gè)重大的技術(shù)突破。
緊隨其后,國(guó)內(nèi) AI 視頻工具迅速發(fā)展。截至 2024 年 10 月,快手推出的 AI 視頻生成器——可靈AI,已經(jīng)能夠生成長(zhǎng)達(dá)2分鐘、30fps幀率的高清視頻,分辨率高達(dá)1080p。
在模型技術(shù)層面,視頻生成類(lèi)模型的底層技術(shù)框架與圖像生成較為相似,主要包括 GAN(生成對(duì)抗網(wǎng)絡(luò))、Transformer、Diffusion 模型三種路徑,其中 Diffusion 模型為當(dāng)前主流生成模型。
這三類(lèi)技術(shù)前文都有提到,本節(jié)不再重復(fù)贅述。
② 主流的 AI 生視頻模型
免死金牌:以上信息均為個(gè)人整理,旨在輔助讀者更深入地理解相關(guān)章節(jié)內(nèi)容。請(qǐng)注意,這些資料不涉及任何商業(yè)目的或用途。
3. 多模態(tài)模型
① 多模態(tài)模型介紹
簡(jiǎn)要說(shuō)明,多模態(tài)模型是一種能夠處理和理解來(lái)自多種不同信息源的數(shù)據(jù),如文本、圖像、視頻、音頻和傳感器數(shù)據(jù)等。
例如,一個(gè)多模態(tài)的情感分析系統(tǒng)可能會(huì)同時(shí)分析文本內(nèi)容、音頻語(yǔ)調(diào)和面部表情來(lái)確定一個(gè)人的真實(shí)情感狀態(tài)。多模態(tài)學(xué)習(xí)的關(guān)鍵優(yōu)勢(shì)在于能夠通過(guò)不同模態(tài)的數(shù)據(jù)互相補(bǔ)充和增強(qiáng),從而提高學(xué)習(xí)算法的性能和準(zhǔn)確性。
② 主流的多模態(tài)模型
目前大部分主流的大語(yǔ)言模型都在往多模態(tài)發(fā)展,故以下模型大部分與生文模型重合。
免死金牌:以上信息均為個(gè)人整理,旨在輔助讀者更深入地理解相關(guān)章節(jié)內(nèi)容。請(qǐng)注意,這些資料不涉及任何商業(yè)目的或用途。
1. Agent 的發(fā)展歷程
Agent(代理)也被叫做智能體,能夠感知其環(huán)境并采取行動(dòng)以實(shí)現(xiàn)某種目標(biāo)的實(shí)體。智能體可以是軟件程序、機(jī)器人、或其他形式的系統(tǒng)。
如大語(yǔ)言模型(LLM)一樣,智能體也有它的發(fā)展歷程,我們可以分為以下 4 個(gè)階段:
- 符號(hào)智能體:采用邏輯規(guī)則和符號(hào)表示來(lái)封裝知識(shí)并促進(jìn)推理過(guò)程。
- 反應(yīng)型智能體:不使用復(fù)雜的符號(hào)推理,主要關(guān)注智能體與其環(huán)境之間的交互,強(qiáng)調(diào)快速和實(shí)時(shí)的響應(yīng)。
- 基于深度強(qiáng)化學(xué)習(xí)的智能體:通過(guò)與環(huán)境的交互進(jìn)行學(xué)習(xí),以獲得最大的累積獎(jiǎng)勵(lì)。
- 基于大模型的智能體:利用規(guī)模龐大、數(shù)據(jù)豐富的語(yǔ)言模型或多模態(tài)模型,展現(xiàn)出了前所未有理解和生成能力。
如前文舉例的《超級(jí)馬里奧》游戲例子,其中馬里奧就是一個(gè)智能體。但游戲里的智能體與大家所熟知 coze 搭建的智能體不同,它屬于基于深度強(qiáng)化學(xué)習(xí)的智能體。
基于大模型的智能體目前的最新一代智能體,也是本章節(jié)主要介紹的核心內(nèi)容——Agent,后文將基于大模型的智能體簡(jiǎn)稱(chēng)為L(zhǎng)LM Agent。
② LLM Agent 技術(shù)原理
LLM Agent 是大型語(yǔ)言模型作為核心組件,通過(guò)整合規(guī)劃、記憶、工具使用和行動(dòng)執(zhí)行等能力,以實(shí)現(xiàn)復(fù)雜任務(wù)的自主完成。這些智能體能夠模擬人類(lèi)的思考和決策過(guò)程,靈活調(diào)用各種工具和資源,以達(dá)成預(yù)設(shè)的目標(biāo)和任務(wù)。它們?cè)诩夹g(shù)架構(gòu)上從面向過(guò)程轉(zhuǎn)變?yōu)槊嫦蚰繕?biāo),通過(guò)感知、思考與行動(dòng)的緊密結(jié)合,完成復(fù)雜的任務(wù)。
LLM Agent 的核心優(yōu)勢(shì)在于其強(qiáng)大的自然語(yǔ)言理解和生成能力,以及通過(guò)持續(xù)學(xué)習(xí)和自我改進(jìn),適應(yīng)不斷變化的社會(huì)需求和環(huán)境的能力。
③ 旅游助手 Agent 例子說(shuō)明
以“旅游助手”為例,按照拆分、規(guī)劃、記憶、工具使用、行動(dòng)執(zhí)行、思考與決策、持續(xù)學(xué)習(xí)與自我改進(jìn)這七個(gè)步驟,來(lái)說(shuō)明一個(gè)基于 LLM 的旅游助手智能體如何工作:
拆分:用戶(hù)向“旅游助手”提出需求:“我計(jì)劃下個(gè)月去巴黎旅游一周,預(yù)算大約是 5000 元,我對(duì)藝術(shù)和歷史特別感興趣?!?“旅游助手”通過(guò)自然語(yǔ)言理解能力解析用戶(hù)的請(qǐng)求,拆分出多個(gè)子任務(wù)/關(guān)鍵信息,如目的地(巴黎)、旅行時(shí)間(一周)、預(yù)算(5000 元)和興趣偏好(藝術(shù)和歷史)。
規(guī)劃:根據(jù)用戶(hù)的需求,“旅游好助手”開(kāi)始規(guī)劃行程。它首先確定旅行的日期,并根據(jù)預(yù)算和興趣,篩選出符合要求的景點(diǎn)、餐廳和住宿選項(xiàng)。
記憶:“旅游助手”回顧用戶(hù)以往的旅行記錄和偏好,比如用戶(hù)之前提到過(guò)喜歡安靜的住宿環(huán)境,或者對(duì)某些食物過(guò)敏,這些信息將被納入行程規(guī)劃中。
工具使用:為了獲取最新的景點(diǎn)信息和用戶(hù)評(píng)價(jià),“旅游助手”可能會(huì)調(diào)用在線(xiàn)旅游平臺(tái)的 API,或者使用搜索引擎來(lái)獲取相關(guān)信息。它還可能使用匯率轉(zhuǎn)換工具來(lái)幫助用戶(hù)了解預(yù)算在當(dāng)?shù)氐馁?gòu)買(mǎi)力。
行動(dòng)執(zhí)行:“旅游助手”根據(jù)規(guī)劃和獲取的信息,為用戶(hù)預(yù)訂機(jī)票、酒店和景點(diǎn)門(mén)票,并生成詳細(xì)的行程單,包括每天的行程安排、交通方式和餐飲推薦。
思考與決策:在整個(gè)規(guī)劃過(guò)程中,“旅游助手”會(huì)不斷思考和調(diào)整策略。例如,如果發(fā)現(xiàn)某個(gè)景點(diǎn)臨時(shí)關(guān)閉,它會(huì)迅速尋找替代方案,并根據(jù)用戶(hù)的興趣偏好做出最佳決策。
持續(xù)學(xué)習(xí)與自我改進(jìn):在用戶(hù)完成旅行后,“旅游助手”會(huì)請(qǐng)求用戶(hù)對(duì)行程的滿(mǎn)意度進(jìn)行反饋。據(jù)用戶(hù)的反饋,智能體會(huì)學(xué)習(xí)哪些方面做得好,哪些方面需要改進(jìn),以便在未來(lái)為用戶(hù)提供更好的服務(wù)。此外,智能體還會(huì)分析其他用戶(hù)的旅行數(shù)據(jù),以發(fā)現(xiàn)新的旅游趨勢(shì)和用戶(hù)偏好,從而不斷優(yōu)化其旅行規(guī)劃算法。
簡(jiǎn)而言之,Agent 通過(guò)將復(fù)雜的旅游規(guī)劃任務(wù)分解為多個(gè)子任務(wù),利用大語(yǔ)言模型和預(yù)設(shè)的規(guī)則(例如提示詞),來(lái)逐步生成和優(yōu)化規(guī)劃方案。通過(guò)這一過(guò)程,智能體能夠精準(zhǔn)地輸出我們期望的旅游規(guī)劃結(jié)果,從而簡(jiǎn)化我們的準(zhǔn)備工作并提升旅行體驗(yàn)。
④ 智能體搭建平臺(tái)
對(duì)于初創(chuàng)團(tuán)隊(duì)和普通用戶(hù)來(lái)說(shuō),訓(xùn)練大型語(yǔ)言模型可能是一個(gè)挑戰(zhàn),但現(xiàn)在搭建定制化的智能體變得相對(duì)容易。國(guó)內(nèi)有多個(gè)平臺(tái)提供智能體搭建服務(wù),本章節(jié)主要推薦兩個(gè)目前主流的智能體搭建平臺(tái),Coze 和文心智能體。
Coze(扣子)
Coze(扣子)是由字節(jié)跳動(dòng)推出的 AI 大模型智能體開(kāi)發(fā)平臺(tái),它提供了一個(gè)集成了插件、知識(shí)庫(kù)、數(shù)據(jù)庫(kù)、記憶、工作流等多功能為一體的 Agent 開(kāi)發(fā)環(huán)境。
工具鏈接: https://www.coze.cn/home
文心智能體
文心智能體平臺(tái)是由百度開(kāi)發(fā)的一款集成了多種 AI 技術(shù)的開(kāi)放平臺(tái),旨在為開(kāi)發(fā)者提供強(qiáng)大的智能化服務(wù)和解決方案。該平臺(tái)支持開(kāi)發(fā)者根據(jù)自身行業(yè)領(lǐng)域和應(yīng)用場(chǎng)景,選擇不同類(lèi)型的開(kāi)發(fā)方式,打造大模型時(shí)代的產(chǎn)品能力。
工具鏈接: https://agents.baidu.com/center
丹妮拉·魯斯(Daniela Rus)說(shuō)過(guò):“深入每個(gè)行業(yè),你會(huì)發(fā)現(xiàn)人工智能正在改變工作的性質(zhì)?!彪S著人工智能生成內(nèi)容(AIGC)技術(shù)的進(jìn)步和普及,它已在多個(gè)行業(yè)領(lǐng)域展現(xiàn)出其活躍的身影,包括媒體、影視、電商和教育等行業(yè)。在本章節(jié)中,我將詳細(xì)介紹在我所熟悉的領(lǐng)域,AIGC 應(yīng)用的趨勢(shì),以幫助大家更好地理解這些行業(yè)中的應(yīng)用現(xiàn)狀,并預(yù)見(jiàn)它們未來(lái)的發(fā)展趨勢(shì)。
1. AI+媒體行業(yè)
在媒體行業(yè),AIGC 技術(shù)正成為信息獲取、整理和文案改寫(xiě)的重要工具。正如我寫(xiě)這篇文章時(shí),就借助 Kimi、秘塔 AI 等工具進(jìn)行知識(shí)信息的查找以及總結(jié)。在 AI 技術(shù)出現(xiàn)之前,我撰寫(xiě)文章需要人工搜索關(guān)鍵詞,收集資料,效率低不談,知識(shí)內(nèi)容的準(zhǔn)確度也很難去判斷。并且設(shè)計(jì)師出身的我,在寫(xiě)這類(lèi)文章時(shí),就是活脫脫的“草臺(tái)班子。”
通過(guò)使用 AIGC 工具,我能迅速找到一手信息源,并利用 AI 將大量信息轉(zhuǎn)化為簡(jiǎn)短的介紹,從而在短時(shí)間內(nèi)快速學(xué)習(xí)和整理這些信息,然后結(jié)合自己的語(yǔ)言理解進(jìn)行撰寫(xiě),大幅提高了寫(xiě)作效率。
并且這種方式也可應(yīng)用于新聞資訊領(lǐng)域。在傳統(tǒng)新聞生產(chǎn)模式中,記者需要在現(xiàn)場(chǎng)通過(guò)觀察、詢(xún)問(wèn)、記錄來(lái)獲取準(zhǔn)確信息,而 AI 能在這個(gè)環(huán)節(jié)上進(jìn)行高效賦能。例如,在采訪(fǎng)過(guò)程中,記者可以使用科大訊飛的 AI 轉(zhuǎn)寫(xiě)工具實(shí)時(shí)生成文字稿、自動(dòng)撰寫(xiě)摘要、調(diào)整文風(fēng)、精簡(jiǎn)文本等,從而提高工作效率,確保新聞產(chǎn)出的時(shí)效性。
但 AI 在該領(lǐng)域尚未實(shí)現(xiàn)完全的“去人工化”。在撰寫(xiě)文稿時(shí),AI 的表現(xiàn)可能較為刻板和單調(diào),缺乏人類(lèi)在語(yǔ)境敘述方面的靈活性和豐富性。可能智能體是一個(gè)解決方案,但目前智能體也存在一定的局限性,這個(gè)后面有機(jī)會(huì)我們?cè)倭?。目前還是 AI+人的協(xié)作方式,但可以預(yù)見(jiàn)的是,隨著 AIGC 技術(shù)的繼續(xù)發(fā)展,傳媒或?qū)⑾蛑敲饺嫔?jí)。
2. AI+電商行業(yè)
我認(rèn)為 AIGC 在電商行業(yè)的賦能是最明顯的。AIGC 可以為商家提供大量的創(chuàng)意營(yíng)銷(xiāo)素材,在電商廣告領(lǐng)域?qū)@些創(chuàng)意營(yíng)銷(xiāo)素材有著海量的需求。比如使用 Midjourney 生成高質(zhì)量素材、StableDiffusion 設(shè)計(jì)合成營(yíng)銷(xiāo)圖等。
市面上有許多 AI 工具,能夠?qū)崿F(xiàn)一鍵模特?fù)Q裝和產(chǎn)品圖設(shè)計(jì)。商家只需要上傳產(chǎn)品圖和模特圖,就能迅速獲得一張模特穿著產(chǎn)品的展示圖。在電商服飾領(lǐng)域,頭部企業(yè)通常需要在 2-3 周內(nèi)上線(xiàn)一款新品,而面對(duì)成百上千的需求時(shí),傳統(tǒng)的制作方式會(huì)耗費(fèi)大量時(shí)間和成本。而 AI 技術(shù)的加持,極大地提高了工作效率,降低了成本。
隨著直播電商的競(jìng)爭(zhēng)愈演愈烈,AI 數(shù)字人的需求量迎來(lái)了爆發(fā)式增長(zhǎng)。不知道大家有沒(méi)有發(fā)現(xiàn),在美團(tuán)等平臺(tái)上,許多店鋪的直播中出現(xiàn)的“主播”并非真人,而是由數(shù)字人代替,他們能夠?qū)崿F(xiàn) 24 小時(shí)不間斷的直播。當(dāng)然你要是與他進(jìn)行互動(dòng),可能會(huì)讓你失望。目前還只能作為暫時(shí)播講的替代,而在情緒表達(dá)和互動(dòng)方面無(wú)法有效地觸動(dòng)用戶(hù),因此這些由數(shù)字人主導(dǎo)的直播轉(zhuǎn)化率通常不會(huì)很高。但還是那句話(huà),AI 還在進(jìn)步,未來(lái)尚未可知。
3. AI+影視行業(yè)
自 2024 年 3 月 22 日央視頻推出國(guó)內(nèi)首部 AI 全流程制作的微短劇《中國(guó)神話(huà)》以來(lái),AI 在視頻制作領(lǐng)域的應(yīng)用迎來(lái)了迅猛發(fā)展,AI 視頻創(chuàng)作工具如雨后春筍般涌現(xiàn)。
AI 技術(shù)正深刻地改變影視行業(yè)的各個(gè)環(huán)節(jié),從劇本創(chuàng)作到后期制作,再到特效增強(qiáng),AI 的深度融合為影視制作帶來(lái)了革命性的變化。利用 AI 文本生成工具,可以輔助創(chuàng)作劇本,以及如剪映等工具自動(dòng)化剪輯的方式,極大提升了影視工作者制作效率,還進(jìn)一步激發(fā)了他們的創(chuàng)意。雖然此時(shí)的 AI 視頻效果并不盡如人意,但趨勢(shì)以來(lái)。
4. AI+教育行業(yè)
“教育興則國(guó)家興,教育強(qiáng)則國(guó)家強(qiáng)”。伴隨著技術(shù)的爆炸式發(fā)展,教育這一古老的行業(yè)也迎來(lái)了顛覆性的未來(lái)。2017 年,我國(guó)首個(gè)國(guó)家級(jí)人工智能規(guī)劃《新一代人工智能發(fā)展規(guī)劃》出臺(tái),文中明確提出,要利用智能技術(shù)加快推動(dòng)人才培養(yǎng)模式、教學(xué)方法改革,構(gòu)建包含智能學(xué)習(xí)、交互式學(xué)習(xí)的新型教育體系。
AI 在教育領(lǐng)域的應(yīng)用正在逐步改變傳統(tǒng)的學(xué)習(xí)方式和教學(xué)模式。通過(guò)圖像和語(yǔ)音識(shí)別、自然語(yǔ)言處理等技術(shù),AI 不僅能夠生成和整理學(xué)習(xí)資料,使得學(xué)習(xí)資源更加豐富和易于獲取,還能通過(guò)收集學(xué)習(xí)者的數(shù)據(jù),提供個(gè)性化的學(xué)習(xí)畫(huà)像和計(jì)劃,幫助學(xué)生了解自己的學(xué)習(xí)狀態(tài)。
對(duì)于老師來(lái)說(shuō),AI 的應(yīng)用能夠減輕他們的負(fù)擔(dān),通過(guò)自動(dòng)化批改作業(yè)和考卷等重復(fù)性工作。盡管在實(shí)際的應(yīng)用場(chǎng)景存在問(wèn)題,但大勢(shì)所趨,AI 發(fā)展加政策雙管齊下,我們有理由相信,借助人工智能,人類(lèi)將打造更好的“以人為中心的”的教育,實(shí)現(xiàn)所有人終身、全面的發(fā)展。
在歷經(jīng) 14 天高強(qiáng)度的學(xué)習(xí)以及撰寫(xiě)后,終于是將本篇文章畫(huà)上了句點(diǎn)。在寫(xiě)之前,我對(duì) AI 技術(shù)也是半懂狀態(tài),為了保證信息的準(zhǔn)確性,也是瘋狂折磨 AI 幫我查閱各種資料,而我也每每熬到深夜(甚至是通宵)才關(guān)掉電腦。在過(guò)程中,也在對(duì)朋友們吐槽,我好像在“考研”,因?yàn)?AI 技術(shù)的底層原理是確實(shí)難啃,而要對(duì)這些信息進(jìn)行整理更是讓我“癲狂”,因?yàn)槲铱偛荒苤苯訉?AI 寫(xiě)的文本信息直接復(fù)制粘貼吧......而且 AI 寫(xiě)的信息,確實(shí)會(huì)存在邏輯錯(cuò)誤的情況。
但我在開(kāi)始之前,就已經(jīng)做好準(zhǔn)備了,我一直崇尚費(fèi)曼學(xué)習(xí)法,通過(guò)學(xué)+寫(xiě)的方式進(jìn)一步消化知識(shí)。這樣我在后續(xù)的分享中,也能更加深度的去分享知識(shí)經(jīng)驗(yàn)了。希望大家閱讀本文能夠?qū)?AIGC 技術(shù)有一個(gè)基本的認(rèn)知,同時(shí)我也知道本文一時(shí)間難以消化,所以建議大家先收藏起來(lái)日后,遇到相關(guān)知識(shí)點(diǎn)可以來(lái)查閱。
福利來(lái)啦!如果你想學(xué)習(xí)更多 AI 設(shè)計(jì)相關(guān)知識(shí),可以加入我主理的《優(yōu)設(shè) AI 俱樂(lè)部》,成為優(yōu)設(shè)會(huì)員將尊享 12 大權(quán)益。星球內(nèi)沉淀有 2000+優(yōu)質(zhì) AI 學(xué)習(xí)資料,AI 提示詞、AI 工具庫(kù)、AI 商業(yè)設(shè)計(jì)案例、AI研究報(bào)告......
現(xiàn)在加入,除了尊享 1 年期限的優(yōu)設(shè)會(huì)員服務(wù)以外,還額外贈(zèng)送超 5GB 的免費(fèi)商用字體包,再次強(qiáng)調(diào),此字體包均通過(guò)人工審核檢查,確保無(wú)版權(quán)可免費(fèi)商用才會(huì)給到大家。所以,我們送出的字體包,請(qǐng)放心使用。下單后加言川微信「ychuanzs」領(lǐng)取~
參考文獻(xiàn):
- 杜雨、張孜銘著《AIGC:智能創(chuàng)作時(shí)代》
- 張成文著《大模型導(dǎo)論》
- 中國(guó) AIGC 市場(chǎng)研究報(bào)告-甲子光年
- AIGC 應(yīng)用與實(shí)踐展望報(bào)告-甲子光年
- 中國(guó) AI Agent 行業(yè)研究報(bào)告-甲子光年
- AIGC 產(chǎn)業(yè)應(yīng)用研究報(bào)告,一文讀懂 AIGC 的前世今生-億歐網(wǎng)
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
品牌形象設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 726 位幸運(yùn)星
發(fā)表評(píng)論 為下方 10 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓