中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

幾個(gè)月前,我寫(xiě)過(guò)一篇 MiniMax 的 AI 聲音模型。

我說(shuō),那就是當(dāng)時(shí)最強(qiáng)的中文 AI 音頻。數(shù)據(jù)也有點(diǎn)小爆。

而在去年 12 月之后,至今將近半年時(shí)間,在 AI 聲音模型這塊,我覺(jué)得還是沒(méi)有能超越 MiniMax 的。

直到昨天,我看到 MiniMax 在 X 上發(fā)了他們新一代聲音模型的技術(shù)報(bào)告,Speech-02 來(lái)了??磥?lái)想突破 Speech-01 的上限,還是得他們自己。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

不過(guò)就是這數(shù)據(jù)是真的慘淡,看來(lái)大家最近關(guān)注的都是 Agent、MCP,AI 音頻關(guān)注的人,是真的少。。。

我大概翻了一下,跑分確實(shí)牛逼不少,主要是 WER 和 SIM 這兩數(shù)據(jù)。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

兩個(gè)維度,左邊是 WER,越低越好,代表這個(gè)模型講出來(lái)的話,有多準(zhǔn)確。右邊是 SIM,越高越好,代表這個(gè)模型講出來(lái)的聲音,有多像原聲。

你可以簡(jiǎn)單的理解成,左邊看的是 AI 說(shuō)的對(duì)不對(duì),右邊看的是 AI 像不像本人。

WER 的數(shù)據(jù),除了一些歐美的小語(yǔ)種,主流語(yǔ)種幾乎都?jí)毫四壳笆澜绻J(rèn)最被推崇的 11Labs 一頭,特別是周邊的亞洲國(guó)家,日本、越南、泰國(guó),幾乎都是純碾壓姿態(tài),所有語(yǔ)種的 WER 指標(biāo)幾乎平均都在 1~4 之間,很牛逼,他們這是正兒八經(jīng)在多語(yǔ)種上發(fā)力了

而音色相似度上,上一代其實(shí)做的沒(méi)有 11labs 好,海外的很多反饋都是聲音沒(méi)有 11Labs 像,但是這一次,實(shí)現(xiàn)了全面超越,32 個(gè)語(yǔ)種,每一個(gè)在跑分上都比 11Labs 要強(qiáng),我自己實(shí)測(cè),也能明顯感覺(jué)到,相似度已經(jīng)比 11labs 好了。

我又去看了一下 AI 音頻領(lǐng)域的盲測(cè)競(jìng)技場(chǎng)。

意外的發(fā)現(xiàn)。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

MiniMax 這個(gè)新模型。

登頂了。。。

現(xiàn)在,這個(gè)新模型,MiniMax Speech-02,已經(jīng)可以在 MiniMax 官網(wǎng)用了,目前只有海外版有聲音克隆,別問(wèn)我為什么只有海外版有。

網(wǎng)址在此: https://www.hailuo.ai/audio

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

我隨手用 MiniMax+即夢(mèng)大師版,搓了一個(gè)有趣的郭小綱動(dòng)畫(huà),給大家直觀的感受一下,MiniMax 的 Speech-02 有多強(qiáng)。

當(dāng)視頻在手機(jī)上無(wú)法加載,可前往PC查看。

我就扔了一段不到 1 分鐘的原聲進(jìn)去復(fù)刻,說(shuō)實(shí)話,這音調(diào),這起伏,這音色,強(qiáng)的有點(diǎn)不像話了。

我第一次聽(tīng)到的時(shí)候,真的感覺(jué)真假難分。

不僅郭小綱,還能讓,周小倫,來(lái)夸一夸我。

太像了。

你閉著眼睛,你是真的能感覺(jué)到,是周董,在你面前揮舞著手臂,用那獨(dú)特的強(qiáng)調(diào)跟你說(shuō),你還挺屌的。

還有之前艾爾登法環(huán),預(yù)告片里面菈妮的配音我一直很喜歡。

我也讓 MiniMax 復(fù)刻了一下。

這是上一代 Speech-01-hd 的效果。

而這是,Speech-02-hd 的效果。

我相信,一定能非常輕松的感受到,情緒的差距。

說(shuō)說(shuō)咋用。

進(jìn)入 Minimax 的 Audio 官網(wǎng)后,點(diǎn)擊左邊的 Voices。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

免費(fèi)用戶,可以免費(fèi)克隆 3 個(gè)聲音。

我是開(kāi)了 5 刀的會(huì)員,所以可以創(chuàng)建 10 個(gè)。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

點(diǎn)進(jìn)去以后,直接上傳你的素材,然后正常命名,選素材的主語(yǔ)言就行,超級(jí)簡(jiǎn)單。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

上傳的語(yǔ)音最少上傳 10s 的音頻片段就可以克隆了,不過(guò)這個(gè)樣本其實(shí)不是特別夠,所以我一般推薦音頻素材最好在 30s 左右,當(dāng)然你也可以更長(zhǎng),不過(guò)一般不需要超過(guò) 5 分鐘。

然后只需要十幾秒,一個(gè)新鮮的聲音模型,就克隆好了。

后續(xù)使用的時(shí)候,直接在右邊的聲音選擇界面里面找到自己的 tab,正常使用就行。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

一代的時(shí)候,這個(gè)聲音模型,只支持 12 種語(yǔ)言,分別是:

中文、粵語(yǔ)、英語(yǔ)、韓語(yǔ)、日語(yǔ)、印尼語(yǔ)、西語(yǔ)、葡語(yǔ)、法語(yǔ)、意大利語(yǔ)、俄語(yǔ)、德語(yǔ)。

但是這一次的 2 代,支持了 32 種語(yǔ)言。

而且在混合語(yǔ)種上,有更好的效果了。

比如我之前看到一個(gè)非常有意思的挑戰(zhàn)。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

文字是這樣的:

“皆さん,我在網(wǎng)絡(luò)上面看到有 someone 把三個(gè)國(guó)家的 language 混在一起去 speak。我看到之后 be like これは我じゃないか,私も try one try です”。

非常離譜。

我克隆了我自己的聲音,然后去試著念了一下。

這是上一代 Speech-01-hd:

我保證,你聽(tīng)完以后也不知道它到底念了個(gè)啥,我就聽(tīng)到一個(gè) Speak。。。

再來(lái)聽(tīng)聽(tīng) 2 代的。

雖然日文那還有一點(diǎn)奇怪,但是,已經(jīng)是能完整的區(qū)分出來(lái)念的明明白白的了好吧,這已經(jīng)是,史詩(shī)級(jí)進(jìn)步了。

我又搞了一個(gè)更復(fù)雜的,小皇四郎。

文本是這樣的:

“媽的,最煩裝逼的人了。剛回國(guó),問(wèn)他論文咋樣,他說(shuō):

“我要 restructure 一下 framework?!?/p>

我翻了個(gè)白眼,結(jié)果他又來(lái)一句:

“Ah non, pas de sucre, merci~”

然后切日語(yǔ):「これはマジでイラっとするわ?」

再來(lái)西語(yǔ):“?Qué pesado! Pero suena perfecto.”

最后還補(bǔ)一句英語(yǔ):“Seriously. Stop pretending you’re special.”

我都想說(shuō):你到底是人,還是 AI?

哦,他是 MiniMax Speech two,新模型?!?/p>

當(dāng)視頻在手機(jī)上無(wú)法加載,可前往PC查看。

真的,實(shí)在太好玩了。

雖然最后的中文,念的還是冒出了翻譯腔,但是進(jìn)步已經(jīng)巨大了。

而且,還有一個(gè)超級(jí)屌的點(diǎn)是,他們?cè)谥v故事的場(chǎng)景中,如果你只用一個(gè)聲音的話,在一些不同角色那里,它甚至?xí)胁煌囊粽{(diào)變化和情緒變化。

這是我的一份故事文稿。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

我直接讓 Speech-02-hd 一鍵直出,然后我自己稍微剪了下,加了點(diǎn)音效,大家可以聽(tīng)一聽(tīng)這個(gè)情緒,還有角色的變化。

文稿中標(biāo)黃的那幾句,大家應(yīng)該能明顯的聽(tīng)出來(lái),是刻意壓低了音調(diào),改了情緒。這可不是我處理的,是 MiniMax 直出的,這就非常牛逼了。

除了 C 端產(chǎn)品之外,我看了一眼 API,發(fā)現(xiàn),他們已經(jīng)第一時(shí)間把 Speech-02 給支持了。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

甚至,MCP 也弄好了。

中國(guó)團(tuán)隊(duì)打造!這才是現(xiàn)在最強(qiáng)的AI聲音模型!

現(xiàn)在,你可以在任何 Agent 產(chǎn)品里,也可以接入這個(gè)逼真到爆炸的語(yǔ)音模型了。

我們也可以自豪的說(shuō)一聲。

之前,中文 AI 語(yǔ)音,我們做到了世界最強(qiáng),但是現(xiàn)在,可以把中文去掉了,整體上,我們都已經(jīng)做到了世界最強(qiáng)。

這是一個(gè)被所有人低估的戰(zhàn)場(chǎng)。

大家都在盯著誰(shuí)做出第一個(gè)像人一樣思考的 Agent,卻沒(méi)看到,那些 AI 說(shuō)話的聲音,其實(shí)早已變得越來(lái)越跟真人無(wú)異。

而且,這一次,還是我們做出來(lái)的。

在 12 月份的那邊 MiniMax AI 音頻的文章中,我在最后寫(xiě)道:

“也許,這就是屬于中文世界的 AI 時(shí)代的序章。而這一切,才剛剛開(kāi)始。”

然后就是波瀾壯闊的春節(jié)。

隨后的故事,大家也都知道了。

一語(yǔ)成讖。

現(xiàn)在的 AI 世界,再也不是英語(yǔ)的獨(dú)角戲了。

我們從配角,走向主角。

然后不僅僅止步于起。

像 MiniMax,也用 AI,給世界,盡可能的帶來(lái)語(yǔ)言平權(quán)。

那些過(guò)去沒(méi)被在意的語(yǔ)言,過(guò)去只能在家族里、在小巷里、在廟宇里才能聽(tīng)到的聲音,現(xiàn)在終于有機(jī)會(huì),能被世界聽(tīng)見(jiàn)了。

AI 沒(méi)有帶來(lái)統(tǒng)治。

反而是把人類的多樣性。

放進(jìn)了未來(lái)。

收藏 15
點(diǎn)贊 45

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。