Google 也不知道受了什么刺激,最近在 AI 場上,好像越來越有站起來的意思了。
之前我就寫過 Gemini 2.5 pro,是在聊天記錄可視化的文章里。
全世界,只有 Gemini 2.5 pro,能吃下一個每天 999+微信群聊天記錄的上下文,同時還能給你干出,一個還挺好看的可視化網(wǎng)頁。
在 Qwen3 的跑分中,也印證了,Gemini 2.5 Pro 的能力也是真的強。
而我自己在是日常使用中,也幾乎是把 Gemini 2.5 Pro,變成了我的默認編程模型。
但是昨晚,Google 好死不死的,又把模型更新了一版,把版本號變成了,Gemini 2.5 Pro(I/O 版)。
而在后臺的模型調(diào)用里,命名是 Gemini 2.5 Pro Preview 05-06。
現(xiàn)在在 Gemini 自己的產(chǎn)品官網(wǎng)上,雖然看著還是原來的 2.5 Pro (experimental),但其實背后的模型已經(jīng)變成 Gemini 2.5 Pro Preview 05-06 了。
有一說一,Google 你的命名到底能不能統(tǒng)一一下。
真的好亂。。。
而且,Google 是真的感覺等不及了,其實距離他們一年一度的 I/O 大會,也就不到兩周時間了,但是還是選擇了把新模型直接放出來。
這種行為,一般要么是真牛逼,要么是來吹牛逼。
但是 Google,這回是前者,是真的有點牛逼。
他們自己也說了:
We were going to release this update at Google I/O in a couple weeks, but based on the overwhelming enthusiasm for this model, we wanted to get it in your hands sooner so people can start building.
不是我來營銷,是真的人民群眾需要啊,我只是順勢而為。
這次 Gemini 2.5 Pro 05-06 版本(后面就簡稱 05-06 版了),跟今年三月 DeepSeek V3 03-24 的更新很像。都是完全為了代碼服務的,把代碼能力,往上提升了一個巨大的優(yōu)先級。
而這次的 05-06 版,我覺得有兩個亮點:
- 模型代碼能力在盲測競技場登頂,力壓 Claude 3.7 Sonnet。
- 得益于 2.5 Pro 強大的多模態(tài)能力,這次不僅可以給參考圖生成代碼,還可以,給參考視頻生成代碼。
特別是第二點,目前應該是全球唯一。
先看看代碼能力的跑分。
這次最核心的榜單,就是,WebDev Arena。
網(wǎng)址:https://web.lmarena.ai/leaderboard
0506 版直接腳踩 Claude 3.7 Sonnet,勇得第一。
可能很多人不知道 WebDev Arena 是啥,我稍微解釋一下,這玩意,還是挺有含金量的。
LMArena,最著名的大模型盲測競技場,我相信一直關注 AI 的,大多數(shù)人都或多或少的聽過。
跟一些傳統(tǒng)的測試集不一樣,這玩意就是純粹的盲測,用戶提出一個 Prompt,然后 LMArena 直接給你兩個你也不知道是什么模型生成的回答,讓你選你覺得哪個好。
所以,在這上面,你幾乎就做不了弊,全靠普通用戶,一票一票投出來的,就跟拆盲盒一樣。
而 WebDev Arena,其實就是一個子榜,還是由 LMArena 他們開發(fā)的,專為評測網(wǎng)頁前端開發(fā)任務(比如 HTML、CSS 和 JavaScript)而設立的。
玩法跟 LMArena 一樣,也是用戶盲測二選一。
唯一不同的是,WebDev Arena 會生成代碼的預覽給你看,而不只是文字了。
比如我讓他生成一個 Web 的像素貓小游戲。
在等了一分鐘兩邊全部生成完之后,你就能非常明確的看出來,兩邊哪個是垃圾。。。
傻子都能看出來,右邊爆殺左邊,這個時候,你就為右邊,投出神圣的一票就行。
然后呢,他們用 Bradley-Terry(BT)模型,成對對決中的勝負數(shù)據(jù),來估算模型的強度,為每個模型計算一個分數(shù),這個分數(shù)反映此模型相對于其他模型的獲勝概率。
這個排名系統(tǒng)非常類似于國際象棋和 LOL、王者榮耀里中常用的 Elo 分。
只不過在 WebDev Arena 里,這個分數(shù),叫做 Arena Score。
現(xiàn)在,我們再回過頭去看,你就能看到,05-06 版,是結(jié)結(jié)實實提高了 147 分。。。
研究過王者榮耀或者 LOL 的隱藏分也就是 ELO 分機制的朋友,就知道,這玩意提升 100 多分有多難。。。
這一次,Google 的 Gemini,登頂了。
第二個亮點,也是我覺得很牛逼的,05-06 版本,也提升了視頻的理解能力,在 VideoMME 基準測試中得分為 84.8%。
這就帶來一個很有趣的化學反應。
過去我們經(jīng)常給一個 PDF、給一個圖片,讓它生成一段可視化網(wǎng)頁,但是現(xiàn)在,你可以,給一個視頻,來變成可視化網(wǎng)頁了。。。
不過現(xiàn)在有點 BUG,Gemini 官網(wǎng)本身不支持視頻的上傳,只能在 AI Studio 里傳視頻,但而上傳的時候,又經(jīng)常會報錯。
Reddit 里很多網(wǎng)友也遇到了這個問題。。。
Emmmmm,不過,目前使用 YouTube 的在線鏈接生成,目前是可以的。
我們直接打開 AI studio 的官網(wǎng):
網(wǎng)址:https://aistudio.google.com/
模型調(diào)整至 05-06 版。
在加號那,選 YouTube。
我直接扔了一段 OpenAI 發(fā)在 YouTube 上的 Sora 教程上去,然后繼續(xù)用藏師傅的可視化 Prompt。
很快啊,代碼就跑出來了。
我們復制一下,運行看看。
完整版網(wǎng)頁在此: https://2uwv6grszo.app.yourware.so/
雖然這事,看著很 NTR,但是,他真的很酷啊。
這玩意用于學習,你就可以想想,他有多棒。
比如我有時候,回去 YouTube 上看 Blender 教程。
現(xiàn)在,我就可以把這個視頻和 Prompt 扔給他。
等輸出完代碼以后,我們看看效果。
真的很爽。。。
所以整體來看,這一次 Gemini 2.5 Pro 05-06 版本,確實是一次非常實在的升級。
既有實打?qū)嵉拇a能力提升,也在多模態(tài)理解上給到了新可能,尤其是視頻轉(zhuǎn)網(wǎng)頁這種交叉場景,很可能會帶來新的開發(fā)范式。
當然,Google 現(xiàn)在的問題依然是產(chǎn)品打磨還不夠穩(wěn),入口混亂、命名迷惑、交互也還有 bug,但模型本身的進步,確實值得承認。
它已經(jīng)不是那個只靠 PPT 和論文刷存在感的 Gemini 了。
也不再是每次都被 OpenAI 狙擊的 AI 界汪峰了。
接下來就看 I/O 大會正式發(fā)布時。
Google 會不會再放出更大一錘了。
我們,拭目以待。
復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
熱評 酷酷的阿金