幾個(gè)月前,我寫(xiě)過(guò)一篇 MiniMax 的 AI 聲音模型。
我說(shuō),那就是當(dāng)時(shí)最強(qiáng)的中文 AI 音頻。數(shù)據(jù)也有點(diǎn)小爆。
而在去年 12 月之后,至今將近半年時(shí)間,在 AI 聲音模型這塊,我覺(jué)得還是沒(méi)有能超越 MiniMax 的。
直到昨天,我看到 MiniMax 在 X 上發(fā)了他們新一代聲音模型的技術(shù)報(bào)告,Speech-02 來(lái)了??磥?lái)想突破 Speech-01 的上限,還是得他們自己。
不過(guò)就是這數(shù)據(jù)是真的慘淡,看來(lái)大家最近關(guān)注的都是 Agent、MCP,AI 音頻關(guān)注的人,是真的少。。。
我大概翻了一下,跑分確實(shí)牛逼不少,主要是 WER 和 SIM 這兩數(shù)據(jù)。
兩個(gè)維度,左邊是 WER,越低越好,代表這個(gè)模型講出來(lái)的話,有多準(zhǔn)確。右邊是 SIM,越高越好,代表這個(gè)模型講出來(lái)的聲音,有多像原聲。
你可以簡(jiǎn)單的理解成,左邊看的是 AI 說(shuō)的對(duì)不對(duì),右邊看的是 AI 像不像本人。
WER 的數(shù)據(jù),除了一些歐美的小語(yǔ)種,主流語(yǔ)種幾乎都?jí)毫四壳笆澜绻J(rèn)最被推崇的 11Labs 一頭,特別是周邊的亞洲國(guó)家,日本、越南、泰國(guó),幾乎都是純碾壓姿態(tài),所有語(yǔ)種的 WER 指標(biāo)幾乎平均都在 1~4 之間,很牛逼,他們這是正兒八經(jīng)在多語(yǔ)種上發(fā)力了
而音色相似度上,上一代其實(shí)做的沒(méi)有 11labs 好,海外的很多反饋都是聲音沒(méi)有 11Labs 像,但是這一次,實(shí)現(xiàn)了全面超越,32 個(gè)語(yǔ)種,每一個(gè)在跑分上都比 11Labs 要強(qiáng),我自己實(shí)測(cè),也能明顯感覺(jué)到,相似度已經(jīng)比 11labs 好了。
我又去看了一下 AI 音頻領(lǐng)域的盲測(cè)競(jìng)技場(chǎng)。
意外的發(fā)現(xiàn)。
MiniMax 這個(gè)新模型。
登頂了。。。
現(xiàn)在,這個(gè)新模型,MiniMax Speech-02,已經(jīng)可以在 MiniMax 官網(wǎng)用了,目前只有海外版有聲音克隆,別問(wèn)我為什么只有海外版有。
網(wǎng)址在此: https://www.hailuo.ai/audio
我隨手用 MiniMax+即夢(mèng)大師版,搓了一個(gè)有趣的郭小綱動(dòng)畫(huà),給大家直觀的感受一下,MiniMax 的 Speech-02 有多強(qiáng)。
我就扔了一段不到 1 分鐘的原聲進(jìn)去復(fù)刻,說(shuō)實(shí)話,這音調(diào),這起伏,這音色,強(qiáng)的有點(diǎn)不像話了。
我第一次聽(tīng)到的時(shí)候,真的感覺(jué)真假難分。
不僅郭小綱,還能讓,周小倫,來(lái)夸一夸我。
太像了。
你閉著眼睛,你是真的能感覺(jué)到,是周董,在你面前揮舞著手臂,用那獨(dú)特的強(qiáng)調(diào)跟你說(shuō),你還挺屌的。
還有之前艾爾登法環(huán),預(yù)告片里面菈妮的配音我一直很喜歡。
我也讓 MiniMax 復(fù)刻了一下。
這是上一代 Speech-01-hd 的效果。
而這是,Speech-02-hd 的效果。
我相信,一定能非常輕松的感受到,情緒的差距。
說(shuō)說(shuō)咋用。
進(jìn)入 Minimax 的 Audio 官網(wǎng)后,點(diǎn)擊左邊的 Voices。
免費(fèi)用戶,可以免費(fèi)克隆 3 個(gè)聲音。
我是開(kāi)了 5 刀的會(huì)員,所以可以創(chuàng)建 10 個(gè)。
點(diǎn)進(jìn)去以后,直接上傳你的素材,然后正常命名,選素材的主語(yǔ)言就行,超級(jí)簡(jiǎn)單。
上傳的語(yǔ)音最少上傳 10s 的音頻片段就可以克隆了,不過(guò)這個(gè)樣本其實(shí)不是特別夠,所以我一般推薦音頻素材最好在 30s 左右,當(dāng)然你也可以更長(zhǎng),不過(guò)一般不需要超過(guò) 5 分鐘。
然后只需要十幾秒,一個(gè)新鮮的聲音模型,就克隆好了。
后續(xù)使用的時(shí)候,直接在右邊的聲音選擇界面里面找到自己的 tab,正常使用就行。
一代的時(shí)候,這個(gè)聲音模型,只支持 12 種語(yǔ)言,分別是:
中文、粵語(yǔ)、英語(yǔ)、韓語(yǔ)、日語(yǔ)、印尼語(yǔ)、西語(yǔ)、葡語(yǔ)、法語(yǔ)、意大利語(yǔ)、俄語(yǔ)、德語(yǔ)。
但是這一次的 2 代,支持了 32 種語(yǔ)言。
而且在混合語(yǔ)種上,有更好的效果了。
比如我之前看到一個(gè)非常有意思的挑戰(zhàn)。
文字是這樣的:
“皆さん,我在網(wǎng)絡(luò)上面看到有 someone 把三個(gè)國(guó)家的 language 混在一起去 speak。我看到之后 be like これは我じゃないか,私も try one try です”。
非常離譜。
我克隆了我自己的聲音,然后去試著念了一下。
這是上一代 Speech-01-hd:
我保證,你聽(tīng)完以后也不知道它到底念了個(gè)啥,我就聽(tīng)到一個(gè) Speak。。。
再來(lái)聽(tīng)聽(tīng) 2 代的。
雖然日文那還有一點(diǎn)奇怪,但是,已經(jīng)是能完整的區(qū)分出來(lái)念的明明白白的了好吧,這已經(jīng)是,史詩(shī)級(jí)進(jìn)步了。
我又搞了一個(gè)更復(fù)雜的,小皇四郎。
文本是這樣的:
“媽的,最煩裝逼的人了。剛回國(guó),問(wèn)他論文咋樣,他說(shuō):
“我要 restructure 一下 framework?!?/p>
我翻了個(gè)白眼,結(jié)果他又來(lái)一句:
“Ah non, pas de sucre, merci~”
然后切日語(yǔ):「これはマジでイラっとするわ?」
再來(lái)西語(yǔ):“?Qué pesado! Pero suena perfecto.”
最后還補(bǔ)一句英語(yǔ):“Seriously. Stop pretending you’re special.”
我都想說(shuō):你到底是人,還是 AI?
哦,他是 MiniMax Speech two,新模型?!?/p>
真的,實(shí)在太好玩了。
雖然最后的中文,念的還是冒出了翻譯腔,但是進(jìn)步已經(jīng)巨大了。
而且,還有一個(gè)超級(jí)屌的點(diǎn)是,他們?cè)谥v故事的場(chǎng)景中,如果你只用一個(gè)聲音的話,在一些不同角色那里,它甚至?xí)胁煌囊粽{(diào)變化和情緒變化。
這是我的一份故事文稿。
我直接讓 Speech-02-hd 一鍵直出,然后我自己稍微剪了下,加了點(diǎn)音效,大家可以聽(tīng)一聽(tīng)這個(gè)情緒,還有角色的變化。
文稿中標(biāo)黃的那幾句,大家應(yīng)該能明顯的聽(tīng)出來(lái),是刻意壓低了音調(diào),改了情緒。這可不是我處理的,是 MiniMax 直出的,這就非常牛逼了。
除了 C 端產(chǎn)品之外,我看了一眼 API,發(fā)現(xiàn),他們已經(jīng)第一時(shí)間把 Speech-02 給支持了。
甚至,MCP 也弄好了。
現(xiàn)在,你可以在任何 Agent 產(chǎn)品里,也可以接入這個(gè)逼真到爆炸的語(yǔ)音模型了。
我們也可以自豪的說(shuō)一聲。
之前,中文 AI 語(yǔ)音,我們做到了世界最強(qiáng),但是現(xiàn)在,可以把中文去掉了,整體上,我們都已經(jīng)做到了世界最強(qiáng)。
這是一個(gè)被所有人低估的戰(zhàn)場(chǎng)。
大家都在盯著誰(shuí)做出第一個(gè)像人一樣思考的 Agent,卻沒(méi)看到,那些 AI 說(shuō)話的聲音,其實(shí)早已變得越來(lái)越跟真人無(wú)異。
而且,這一次,還是我們做出來(lái)的。
在 12 月份的那邊 MiniMax AI 音頻的文章中,我在最后寫(xiě)道:
“也許,這就是屬于中文世界的 AI 時(shí)代的序章。而這一切,才剛剛開(kāi)始。”
然后就是波瀾壯闊的春節(jié)。
隨后的故事,大家也都知道了。
一語(yǔ)成讖。
現(xiàn)在的 AI 世界,再也不是英語(yǔ)的獨(dú)角戲了。
我們從配角,走向主角。
然后不僅僅止步于起。
像 MiniMax,也用 AI,給世界,盡可能的帶來(lái)語(yǔ)言平權(quán)。
那些過(guò)去沒(méi)被在意的語(yǔ)言,過(guò)去只能在家族里、在小巷里、在廟宇里才能聽(tīng)到的聲音,現(xiàn)在終于有機(jī)會(huì),能被世界聽(tīng)見(jiàn)了。
AI 沒(méi)有帶來(lái)統(tǒng)治。
反而是把人類的多樣性。
放進(jìn)了未來(lái)。
復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
品牌形象設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 726 位幸運(yùn)星
發(fā)表評(píng)論 為下方 4 條評(píng)論點(diǎn)贊,解鎖好運(yùn)彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評(píng) ↓