30秒完美復(fù)刻你的聲音,這就是當(dāng)今最強的中文AI語音克??!

往期作者干貨:

中文,在 AI 世界,好像突然一夜崛起了。

一直以來,AI 繪圖和 AI 聲音,都有類似的痛點:

無法直出中文海報,以及克隆的中文聲音幾乎沒法聽。

而前者,隨著上周的即夢 v2.1,得到了很好的解決。后者,過往有 N 多產(chǎn)品試圖去解決,但是解決的都很差。

閉源的有 11labs,英文強到爆炸,中文幾乎沒法聽總是一股子大佐味。開源的,有 F5、GPT-sovits、ChatTTS 等等,但是不僅本地部署使用困難,出來的情緒說實話,也不咋地。

而這個周末,中文的語音克隆痛點,我發(fā)現(xiàn),被解決了。

幸福來的如此突然。

我直接給大家聽一段我用克隆的 AI 唐國強老師,念滿江紅的語音。

震撼的我頭皮發(fā)麻。

玩了將近 2 年的 AI 聲音了,我也是第一次見,能用中文念詩,念的如此情緒飽滿的 AI 聲音。

而這,僅僅只需要,30 秒的音頻素材就可以。

給我 30 秒,我就可以,偷走你的聲音。

這個 AI 語音,來自 MiniMax 的海螺 AI。

嗯,就是那個把人物情緒表演拉滿,在海外 AI 視頻圈大殺特殺的海螺 AI。

周末我打開海螺 AI,準(zhǔn)備跑幾個 case 視頻的時候,意外的發(fā)現(xiàn),他們悄悄的居然在海外版上線了 Audio 模塊。

30秒完美復(fù)刻你的聲音,這就是當(dāng)今最強的中文AI語音克隆!

今年 1 月我就寫過一篇海螺 AI 聲音克隆的文章,但是那時候,只能在 AI 助手上,克隆你自己。

而現(xiàn)在,可以克隆任何人了。

在火速體驗完以后,我終于可以說:

這就是當(dāng)今最強的,AI 中文語音克隆,沒有之一。

一周時間,AI 繪圖和 AI 聲音,中文世界兩開花。

這兩年,你知道我們是怎么過來的嗎。

突然有點淚目,兄弟們,過年了,真的。

海螺 AI Audio 網(wǎng)址在此: https://www.hailuo.ai/audio

30秒完美復(fù)刻你的聲音,這就是當(dāng)今最強的中文AI語音克??!

最頂上左邊的就是 Audio,剛剛新上的聲音功能,最右邊那個就是之前爆火的 Video。

最爽的是,目前免費,不要錢。

海螺 AI 的 Audio 用起來也非常的簡單,最左邊的側(cè)邊欄,分為兩個 tab。

第一個是 Text to Speech(TTS),也就是你克隆完的聲音模型可以在這個地方進行文字生成音頻了。

第二個就是 Voices,可以在里面進行聲音的克隆。

我做個 case,給大家詳細演示一下。

我們先進入到 Voices 頁面。

30秒完美復(fù)刻你的聲音,這就是當(dāng)今最強的中文AI語音克?。? class=

直接點那個“創(chuàng)建您的聲音克隆”按鈕,目前每個人可以免費創(chuàng)建 3 個聲音。

30秒完美復(fù)刻你的聲音,這就是當(dāng)今最強的中文AI語音克隆!

你可以上傳語音,也可以直接錄音。

上傳的語音最少上傳 10s 的音頻片段就可以克隆了,不過這個樣本其實不是特別夠,所以我一般推薦音頻素材最好在 30s 左右,當(dāng)然你也可以更長,不過一般不需要超過 5 分鐘。

這里我直接去 B 站,扒了一段唐國強老師在《三國演義》里面的朗誦片段。

30秒完美復(fù)刻你的聲音,這就是當(dāng)今最強的中文AI語音克??!

扒出來的聲音素材是這樣的,你們可以聽一下。

情緒起伏很大,抑揚頓挫拉滿,非常完美的原始素材。

直接上傳到海螺 AI 里面去。

30秒完美復(fù)刻你的聲音,這就是當(dāng)今最強的中文AI語音克隆!

有個降噪選項,可選可不選,如果你的素材比較純凈干凈,可以不用。開的話可以幫你把一些背景音什么的都剔除掉。

最后需要選一下原始素材的語言,海螺 AI 支持 12 種語言,分別是:

中文、粵語、英語、韓語、日語、印尼語、西語、葡語、法語、意大利語、俄語、德語。

你的原始素材的語言是什么樣的,就選什么語言,克隆出來的聲音模型就會得到最好的效果,比如我上傳的這個唐國強老師的素材是中文的,就選中文就行。

很快,大概只要幾十秒的時間,唐國強老師的聲音,就克隆好了。
回到 TTS 界面。

點擊此位置,就可以切換到剛剛克隆完的唐國強老師的聲音模型。

30秒完美復(fù)刻你的聲音,這就是當(dāng)今最強的中文AI語音克??!

我們直接,讓唐國強老師,來念一首李白的《將進酒》吧。

這首詩我太喜歡了,《長安三萬里》李白那一段上天入地,駕鶴登仙的演繹,更是將這首詩在我心中的地位,推向了最巔峰。

我們直接把《將進酒》的最后一段扔進去。

“主人何為言少錢,徑須沽取對君酌。五花馬,千金裘,呼兒將出換美酒,與爾同銷萬古愁?!?/p>

海螺有個非常牛逼的點是,可以支持切換情緒。

目前有六種情緒:開心、生氣、悲傷、驚訝、恐懼、厭惡。

《將進酒》的最后一段,在我的認(rèn)知里,雖然一種憤慨,有一種激昂,但是底層情緒,確是悲涼的。

我只要一瞬,卻也要讓這世間,看到我這一瞬的光輝。

所以,在海螺 AI 的情感選擇上,我選了悲傷。

點擊生成,幾秒鐘的時間,一段語音,就出現(xiàn)在了你的面前。

為了更加形象的展示,我把這段音頻做了個照片驅(qū)動對口型,視頻看起來更直觀一些。

又比如,我們可以再克隆一個林黛玉的聲音。

讓她來催一催鮮蝦包。

這聲音,直接人麻了。

林黛玉的聲音和情緒,都被還原到了極致。

而這句話,如果讓 11labs 克隆林黛玉的聲音來念呢,我給你們聽一下,有多么的鬼畜。

這就是我在文章開頭,說的一股子大佐味。

不是說 11labs 不好,11labs 一直以來是世界上公認(rèn)的最強的 AI 聲音產(chǎn)品,但是在中文表現(xiàn)上,真的是沒法用的狀態(tài)。

而這一次,海螺 AI 挺身而出,終于,補足了中文領(lǐng)域幾乎是空白的短板,把中文的聲音克隆的音色相似度和情緒,推上了巔峰。

成功率也極高,我想說的是,我上面所有的 case,全部是一遍直出,沒有抽過一次卡,這點,真的難能可貴。

再給大家看一個影視颶風(fēng) TIM 的例子。

影視颶風(fēng)是我最喜歡以及最崇拜的頻道,沒有之一。相信看過影視颶風(fēng)的觀眾也都無數(shù)次聽過 TIM 那句:

“Hello 大家好,我是 TIM,歡迎收看影視颶風(fēng)?!?/p>

而這一次,我們讓 AI 來說這句話,讓大家聽聽,海螺 AI 的復(fù)刻有多么的強。

注意,為了避免擬合,所以我在上傳到海螺 AI 的 30 秒 TIM 的素材里,是沒有這句開場白的,都是他在聊一些別的東西。

AI 直出如下,讓李四維化身 TIM:

跟我記憶中已經(jīng)聽過無數(shù)次的 TIM 的開場白,沒有任何區(qū)別。

這就是現(xiàn)在海螺 AI,能達到的程度。

這就是現(xiàn)在,最強的 AI 中文聲音克隆,沒有之一。

作為一個見證了這兩年 AI 發(fā)展的親歷者,這一周的感受格外強烈。

從即夢讓中文海報一夜之間"通關(guān)",到海螺 AI 讓中文語音克隆達到了前所未有的高度,我仿佛看到了中文 AI 能力的爆發(fā)時刻。

想想兩年前,我們還在為中文大模型和國際巨頭的差距而焦慮。

那時的 AI 世界,幾乎是英語的獨角戲。

中文的存在感,就像是一個可有可無的配角。

但現(xiàn)在,這個局面正在被改寫。

當(dāng)我們能用 AI 輕松制作出中文海報,當(dāng)唐國強老師的聲音能被完美克隆,當(dāng)林

黛玉的語氣都能被精準(zhǔn)還原。

也許,這就是屬于中文世界的 AI 時代的序章。

而這一切,才剛剛開始。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、轉(zhuǎn)發(fā)吧~謝謝你看我的文章,我們,下次再見。

歡迎關(guān)注作者的微信公眾號:數(shù)字生命卡茲克

30秒完美復(fù)刻你的聲音,這就是當(dāng)今最強的中文AI語音克隆!

收藏 40
點贊 41

復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。