AI進階科普!A2A、MCP協(xié)議到底是什么?

昨天晚上,Google 發(fā)了一個關于 Agent 的新開放協(xié)議。

Agent2Agent,簡稱 A2A。

AI進階科普!A2A、MCP協(xié)議到底是什么?

包括昨天阿里云百煉也官宣搞 MCP 了。

這些本來沒打算寫的,因為太技術(shù)了,也是感覺離普通人還是有很大距離。

但是有好幾個朋友都在群里說。。。

AI進階科普!A2A、MCP協(xié)議到底是什么?

那還是來聊聊吧,正好也用我自己的理解,來做個小科普,讓大家看懂A2A、MCP,到底是個啥。

更多AI干貨:

正好最近特朗普對等關稅這事,非?;?。

搞得全世界雞犬不寧,每個國家之間的隔閡,好像又重新出現(xiàn)了。

我就用國與國之間的外交,來去解釋這兩個協(xié)議。不要以為八竿子打不著,其實真的非常的像。

我們現(xiàn)在,假設每個 AI 智能體(Agent)就是一個小國家,它們各自有自己的語言和規(guī)矩。

AI進階科普!A2A、MCP協(xié)議到底是什么?

現(xiàn)在,這些國家的大使館分布在同一棟大樓里,試圖互相溝通、做生意、交換情報。

理想情況是,各國之間關系和睦,大家都有一套明晰的外交規(guī)則,只要大家坐在圓桌前,就能順暢地交流、簽署協(xié)議、并合作進行國際項目。

但現(xiàn)實卻是,每個國家的大使館互不統(tǒng)屬,協(xié)議各異,有的只認英制度量衡,有的只收歐元貨幣,有的說談判必須用法語,有的則堅持任何通信都要用自家加密算法……

結(jié)果,你想跟 A 國談一個簡單的貿(mào)易合作,得先備齊對方要求的一大堆條文、證明、翻譯、特殊密鑰。如果你還想同時跟 B 國、C 國合作,那就得重復 N 遍相似的流程。

這種臨時的、分散的、多頭的各國各自為政,讓所有人的溝通成本居高不下,每次對話都要額外繳一份信息關稅。

過去,AI 世界里的 Agent 想要合作,都面臨一樣的窘境。

舉個例子,你可能有一個自動幫你回郵件的 Agent,還有一個內(nèi)置在日歷應用里的 Agent,能幫你安排日程。

但這兩個 AI 很難直接對話,必須得你充當翻譯,在中間手動復制粘貼信息,或者依賴開發(fā)者定制的接口。賊惡心。

結(jié)果就是,AI 智能體各據(jù)山頭,互操作性極差,這種碎片化現(xiàn)狀讓很多用戶頭疼,因為需要在多個 AI 應用間來回切換,也限制了 AI 的潛力發(fā)揮,很多本可以多 Agent 協(xié)同完成的復雜任務,被人為隔斷在各自的小圈子里。

這種局面下,就有點像二戰(zhàn)后世界的狀態(tài):每個 AI 智能體各自為政,缺乏統(tǒng)一規(guī)則,互通有壁壘。

當年二戰(zhàn)后,也就是 1940 年代,美國尋求建立一套戰(zhàn)后多邊機構(gòu),其中之一將致力于重建世界貿(mào)易,搞了很多輪的談判。

AI進階科普!A2A、MCP協(xié)議到底是什么?

最后,歷經(jīng) 50 年,終于 1995 年 1 月 1 日正式開始運作,依據(jù) 1994 年馬拉喀什協(xié)議 ,取代了 1948 年建立的關稅與貿(mào)易總協(xié)定。

我們有了人類歷史上也是非常偉大的組織:

WTO,世界貿(mào)易組織。

而現(xiàn)在 AI 世界的生態(tài),就有點像二戰(zhàn)后的廢墟,WTO 成立的前夕,你調(diào)用我的功能要按我的接口來,我訪問你的數(shù)據(jù)也得敲你定的門路。

沒有標準,意味著每增加一種合作關系,都要付出額外“關稅”(開發(fā)成本和溝通成本)。
AI 生態(tài)因此變得割裂且低效。

人人設墻,自掃門前雪。

但是還好,在 AI 圈里也出現(xiàn)了想要制定通用規(guī)則的勢力,就想大家在貿(mào)易混戰(zhàn)中渴望一個 WTO 那樣。

AI 行業(yè)開始探討能否有一套大家都認可的協(xié)議,讓智能體之間、智能體與工具之間互相對接更加順暢。

這時候,Google 和 Anthropic 分別站了出來,各自拋出了一個方案,也就是我們今天的主角:A2A 協(xié)議和 MCP 協(xié)議。

一、A2A 協(xié)議

先來看 Google 發(fā)布的 A2A 協(xié)議。

A2A(Agent-to-Agent)協(xié)議,顧名思義,就是讓 AI 代理彼此直接對話、協(xié)同工作的協(xié)議。

AI進階科普!A2A、MCP協(xié)議到底是什么?

這次 Google 得到了包括 Salesforce、SAP、ServiceNow、MongoDB 等在內(nèi)的 50 多家科技公司的支持參與。

AI進階科普!A2A、MCP協(xié)議到底是什么?

A2A 協(xié)議的設計初衷很簡單:

讓不同來源、不同廠商的 Agent 能夠互相理解、協(xié)作。就像 WTO 旨在消減各國間的關稅壁壘一樣。

一旦采用 A2A,不同供應商和框架的 Agent 就像一個個的小國家,加入了一個自由貿(mào)易區(qū),能夠用共同語言交流、無縫協(xié)作,聯(lián)手完成單個 Agent 難以獨立完成的復雜工作流程。
至于 A2A 是如何運作的,我盡量用現(xiàn)實類比來通俗易懂的解釋下:

1. Agent = 國家外交官

每個 Agent 其實就像一個國家大使館的外交官。他的名牌上寫著自己能干啥、隸屬于哪家企業(yè),聯(lián)絡方式如何等。A2A 要做的,就是制定一個統(tǒng)一的外交禮儀和溝通流程。

過去,A 國外交官只會說法語,B 國外交官只用西里爾字母寫文件,C 國外交官要求面談時必須使用古老的云紋金箔信件。。。而 A2A 的出現(xiàn),就是讓大家在同一個會議室開會時,都能說一套約定好的通用語言,用相同格式提交文件,讓商議好的結(jié)果可以被各方理解并執(zhí)行。

2. Agent Card(代理卡) = 外交國書 / 大使名片

在 A2A 規(guī)范中,每個 Agent 都要公開一份“Agent Card”,相當于其外交官的身份名片。

包含以下內(nèi)容:Agent 名稱、版本、能力描述、支持什么“語言或格式”等等。

現(xiàn)實中,外交官的身份名片讓對方知道他是誰,代表哪個國家,有哪些職權(quán)。同理,在 A2A 里,Agent Card 列舉了“我(這個 Agent)能執(zhí)行哪些技能”、“我的認證方式是什么”、“輸入輸出格式有哪些”等等。

這樣,其他外交官想跟你合作就能很快找到你、理解你的能力,省去了大量溝通障礙。

3. Task(任務)= 雙邊或多邊外交項目

A2A 中最核心的概念之一是 Task。

當一個 Agent 想委托另一個 Agent 去完成什么事情,就像對外發(fā)布一份“合作項目意向書”。對方同意接單后,雙方會記錄一個 Task ID,追蹤項目進度、交換資料、直到該 Task 完成為止。

現(xiàn)實外交中,某國家就可能向某兔提議:“我們想合作修一條跨境高鐵,麻煩你們派工程隊來?!?/p>

這就對應 A2A 的 Task:由發(fā)起方提出需求(TaskSend),遠程 Agent 表示接受(Task 狀態(tài)變更),然后雙方在整個項目過程中隨時更新任務進度

里面還有個 Artifacts(成果物),就相當于這個項目最后落地的“合同文本、建設成果”。在 AI 里可能是生成的一份報告、一張圖片或任意形式的輸出。而在 A2A 語言里,用 Artifact 表示最終生成的成果。

Message(消息),則是項目前期或中期的各種來回溝通。它可能包含對任務細節(jié)的補充說明、要對方再確認某些條件等。這與現(xiàn)實外交中的電報、照會、使節(jié)往來是一模一樣的。

4. Push Notifications(推送通知)= 外交使館快報

在 A2A 里,如果一個 Task 是長期項目,遠程 Agent 需要花很久時間才能完成,比如 DeepResearch 動輒十幾分鐘,某些復雜的 Agent 動輒一小時,它就可以通過推送通知機制向發(fā)起方更新進度。

就像在外交中,如果一個跨國基建項目周期很長,甲國會定期給乙國發(fā)通報:“進度到哪兒了?有什么問題需要協(xié)調(diào)?”

這樣能大幅提升異步協(xié)作的能力。過去很多 AI 系統(tǒng)比較原始,只能用同步的“請求-響應”模式,就像放一個人在那 24 小時監(jiān)控,一旦響應超時就中斷。

A2A 允許設置回調(diào)接口、服務器端事件(SSE)等方式,把漫長的任務分段匯報,讓溝通保持流暢。

5. 身份認證與安全= 外交特權(quán)與協(xié)議

A2A 采用企業(yè)級的認證策略,要求通信雙方先驗證對方的身份憑證。例如在現(xiàn)實外交中,不是誰都能隨意闖進某國大使館,必須持有相應的外交護照、獲得許可。

這就是為了防范“冒名頂替”或“惡意竊聽”。

在 A2A 里,“認證頭信息”“token”“簽名”等一系列安全手段,就相當于外交通行證或蓋了公章的外事批準文書,確保你跟我談判時是真的代表“你所在的國家”,而不是一個假冒的第三方。

這大概,就是 A2A 的機制,其實你看,跟國與國的外交,或者跟企業(yè)與企業(yè)之間的協(xié)同,沒有任何本質(zhì)的區(qū)別。

二、MCP 協(xié)議

再來看 MCP 協(xié)議,全稱 Model Context Protocol。

這就是 Claude 的母公司 Anthropic 在 2024 年 11 月推出并開源的一套標準。

A2A 解決了 AI 外交官之間的交流流程問題,但是還有一個棘手的現(xiàn)實,再能言善辯的外交官或者企業(yè)商務,要是沒有任何可靠的信息來源,對國際局勢和資源配置就兩眼一抹黑,根本就沒法干活。

更何況,在現(xiàn)代社會,外交官往往需要調(diào)用種種外部工具,比如簽證系統(tǒng)、國際結(jié)算系統(tǒng)、情報數(shù)據(jù)庫等等,才能完成任務。

同理,一個 Agent 若想承擔真正的復雜職責,也需要能連上各種數(shù)據(jù)庫、文檔系統(tǒng)、企業(yè)應用,甚至是硬件設備。

這就像給外交官建立完備的情報局,并授權(quán)他們使用某些工具處理事物。

過去,Agent 要接入外部資源,常常得各自開發(fā)專用插件,與不同工具做深度整合,勞心勞力。
但是,我們現(xiàn)在有 MCP 了。

MCP 致力于標準化大型語言模型(LLM)與外部數(shù)據(jù)源、工具之間的交互方式。Anthropic 的官方比喻很形象:MCP 就像 AI 應用程序的 USB-C 端口。

AI進階科普!A2A、MCP協(xié)議到底是什么?

USB-C 是如今設備通用的接口,不管充電、傳數(shù)據(jù)都是一個口搞定。

MCP 的野心也是這樣的,搞一個 AI 領域的萬能接口,讓各種模型和外部系統(tǒng)接駁都用同一個協(xié)議,而不是每次另寫一套集成方案。

以后 AI 模型要連數(shù)據(jù)庫、連搜索引擎、連第三方應用,不用每家各訂各的協(xié)議,只要都支持 MCP 就能對上話。

它大概是客戶端-服務器架構(gòu)的思路:

1. MCP 服務器= 整合的情報局

企業(yè)或個人可以把自己的數(shù)據(jù)庫、文件系統(tǒng)、日歷、甚至第三方服務封裝成一個個“MCP Server”,這些 Server 符合 MCP 協(xié)議,向外暴露統(tǒng)一格式的訪問端點,任何 Agent 只要符合 MCP 客戶端標準,就能發(fā)送請求、檢索信息或執(zhí)行操作。

比如高德就把自己的一些 API,封裝成了 MCP,只要你有高德的 API Key,你就可以在 Agent 上調(diào)用高德。

AI進階科普!A2A、MCP協(xié)議到底是什么?

2. MCP 客戶端 = 外交官實際使用的終端設備

就像一個 Agent 外交官帶著專用的終端設備,可以輸入各種指令:“幫我查一下財務系統(tǒng)里庫存數(shù)據(jù)”、“幫我向某個 API 提交請求”,“把某份 PDF 拿來我看看”。

過去,如果沒有 MCP,你得針對各種系統(tǒng)寫不同的訪問代碼,整合起來極其麻煩;但是用了 MCP 后,只要客戶端支持協(xié)議,就能輕松切換到不同的 MCP 服務器。

調(diào)用不同的信息,隨時獲取情報、做業(yè)務流程。

這大概,就是 MCP 的機制。

三、A2A 和 MCP 的不同

抽象講了很多,可能很多人,還是有點云里霧里。

別急,我們通過一個故事化的場景來把 A2A 和 MCP 的區(qū)別與合作說明白。

比如我們現(xiàn)在,有一個世界版的國際峰會。

各國首腦其實是各家公司的 Agent 代表,比如谷歌代表是小 G,Anthropic 派出了小 A,OpenAI 來了個小 O,國內(nèi)的阿里派出小 Q,騰訊派小 T 等等。大家齊聚一堂,要合作完成一項跨國任務,比如聯(lián)合寫一份全球經(jīng)濟分析報告。

在沒有通用協(xié)議之前,這會基本開不起來,因為每個代表講自家語言,互相聽不懂。

但現(xiàn)在好了,有了 A2A 協(xié)議這套外交標準,所有代表進入會場前都簽了《A2A 維也納外交公約》:發(fā)言必須用統(tǒng)一格式,說話先報身份、標明意圖,回應要引用之前的發(fā)言 ID 等等。

于是,小 G 可以正式地用 A2A 格式發(fā)消息給小 O,小 O 收到后依樣畫葫蘆地回復一個 A2A 消息。這樣,不同公司的 AI 首次實現(xiàn)了無障礙對話。

二對話進行中,各位 AI 代表難免需要查閱資料或使用工具幫助分析。

這時候 Anthropic 的小 A 說:“各位,如果需要外部數(shù)據(jù)或工具的支持,可以通過 MCP 系統(tǒng)獲取。”

原來,會場邊上還架設了一套“MCP 同聲傳譯室”。里面坐著各種專家(對應不同的 MCP 服務器)。

有谷歌 Drive 資料館管理員、有 Slack 聊天記錄管家、有 GitHub 代碼管家,甚至還有 Postgres 數(shù)據(jù)庫管理員…只要通過MCP提請求,他們就能用統(tǒng)一語言回應。

比如,小 Q(阿里云代表)想調(diào)自家云端數(shù)據(jù)庫算點東西,如果按老辦法,他得派人打個飛的回國去拿。

現(xiàn)在他直接在會上發(fā)送一個 MCP 請求(這請求其實也是按 MCP 定義的 JSON 格式發(fā)給對應的 MCP Server):

“我要查詢 X 數(shù)據(jù)庫里的 Y 數(shù)據(jù)”。

MCP 數(shù)據(jù)庫管家翻譯室收到請求,立刻查庫拿到結(jié)果,用 MCP 語言回復給小 Q。

整個過程對其他 Agent 來說是透明的,他們也聽懂了小 Q 引用的這份數(shù)據(jù),因為 MCP 翻譯過來的格式大家都認識。

繼續(xù)寫報告過程中,小 G(谷歌)和小 A(Anthropic)發(fā)現(xiàn)需要把各自部分內(nèi)容對接起來分析。
小 G 擅長數(shù)值分析,小 A 擅長語言總結(jié),那就協(xié)作:

小 G 通過 A2A 對小 A 說“我這邊算完 GDP 增速了,數(shù)據(jù)如下”,小 A 收到后,在自己這邊通過 MCP 又連了一下 Excel 表格插件,驗證了數(shù)據(jù)趨勢,然后再用 A2A 回復小 G 一個總結(jié)段落……
一來二去,A2A 讓 Agent 彼此溝通任務,MCP 讓每個智能體方便地調(diào)用外部工具補充信息,兩套協(xié)議配合默契,報告很快完工。

這個故事中,大家可以清楚地看到:

A2A 更像外交部專線,解決的是 Agent 直接對話的問題。

MCP 更像同聲傳譯與資源共享系統(tǒng),解決的是智能體對接外部信息的問題。

兩者配合起來,就是為 AI 版聯(lián)合國量身打造的溝通協(xié)定。有了它們,AI Agents 可以各展所長又緊密合作,真正形成一個互聯(lián)互通的 AI 生態(tài)體系。

寫在最后

當 A2A 和 MCP 這樣的開放協(xié)議逐漸統(tǒng)一標準之后,我們有理由暢想一個全新的 AI Agent 生態(tài)。

無數(shù) AI Agent 像網(wǎng)站一樣部署在各處,它們通過 A2A 協(xié)議彼此發(fā)現(xiàn)、通信,通過 MCP 協(xié)議調(diào)動資源、分享知識。

我們作為用戶,就像當年瀏覽網(wǎng)頁一樣,可以無感知地使用這些智能體的協(xié)同服務。比如,你的個人 AI 助理 Agent 接受了你的復雜委托:

“幫我計劃一次歐洲旅行,順便寫一篇游記稿件?!?/p>

它不會單打獨斗,而是迅速通過 A2A 喊來各路好手:旅行規(guī)劃 Agent、航班預訂 Agent、翻譯 Agent、文案 Agent……

大家分工合作,各顯其能。

正如我們希望國家間少打貿(mào)易戰(zhàn)、多訂規(guī)則,AI 領域我們也樂見各家少搞閉關鎖國,多推行兼容協(xié)議。

A2A 和 MCP 的崛起,意味著 AI 產(chǎn)業(yè)已經(jīng)在朝著協(xié)作而非對抗的方向進化。

現(xiàn)實世界,和 AI 世界,明明是一體,確實兩種趨勢。

真是諷刺。

最后,希望這篇文章,對你有一些幫助。

收藏 11
點贊 35

復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。