自COVID-19爆發(fā)以來,雖然打破了人們工作、生活的節(jié)奏,但也在一定程度上催化了音視頻技術(shù)的加速發(fā)展。這種加速發(fā)展不止是技術(shù)的縱向迭代,也是向不同場景發(fā)起了一次橫向觸達(dá)。當(dāng)許多在物理層面受到限制的活動,如:社交、購物、娛樂、工作等,我們都可以通過線上的方式來進(jìn)行,甚至越來越依賴這種方式。當(dāng)然在這背后少不了技術(shù)者們的支持。對此,我們做了一個回顧,無論是國內(nèi)還是國外,看看技術(shù)人們在音視頻技術(shù)這個垂直賽道上更看好哪些具體技術(shù)的發(fā)展吧。另外,在這些內(nèi)容的基礎(chǔ)上,我們延伸到了本次 8月5日開始的LiveVideoStackCon 2022 音視頻技術(shù)大會 上海站,一起看看有哪些大佬和內(nèi)容會出現(xiàn)吧。
下文匯集了海內(nèi)外的技術(shù)人們從音視頻技術(shù)的不同方向出發(fā),來聊一聊他們看好哪些技術(shù)的前景。
流媒體技術(shù)
“我們之前說過,未來也將重申:視頻正在顛覆商業(yè)。醫(yī)療領(lǐng)域正在依賴于連接視頻的醫(yī)療設(shè)備、遠(yuǎn)程手術(shù)能力和配備了AI監(jiān)控的智能醫(yī)院。無論是在家還是在醫(yī)院,對醫(yī)療護(hù)理而言,流媒體技術(shù)都已變得至關(guān)重要。
在消費(fèi)領(lǐng)域,隨著實體店的關(guān)門,數(shù)字購物平臺正在蓬勃發(fā)展。那些繼續(xù)吸引顧客的實體店使用虛擬試衣間等店內(nèi)娛樂消費(fèi)技術(shù)來吸引顧客。
然后是像谷歌這樣的科技巨頭,它們已經(jīng)將視頻融入商業(yè)戰(zhàn)略的方方面面:從服務(wù)(Youtube和Google Meet)到流媒體產(chǎn)品(Chromebook、Pixel和Nest等)。即使是Facebook(現(xiàn)已更名為Meta)也已將全部戰(zhàn)略轉(zhuǎn)移到了AR和VR這樣的視頻技術(shù)上。
同時,流媒體技術(shù)為用戶提供廣泛的可訪問性,將更多權(quán)力賦予給創(chuàng)作者。區(qū)塊鏈、加密、Web3等正在驅(qū)動去中心化。接著,避開大公司的新型盈利模式將會發(fā)展起來?!?/p>
——摘自《2022 海外流媒體十大技術(shù)趨勢》
“技術(shù)+行業(yè)場景”這個方面也是我們一直所關(guān)注的。因此,我們在LiveVideoStackCon 2022 上海站特別推出了「音視頻+」專題, 從不同行業(yè)場景出發(fā),看看音視頻技術(shù)的滲透力有多強(qiáng)。
了解更多該專題詳情請掃碼
AI與視頻編解碼
“LiveVideoStack: 您認(rèn)為基于AI的編解碼器將很快超越傳統(tǒng)編碼器嗎?還是兩種編碼器將共存很長時間?
Leonardo Chiariglione:傳統(tǒng)的數(shù)據(jù)處理技術(shù)仍然會大顯身手,但在很多領(lǐng)域,它已經(jīng)走到了發(fā)展的盡頭。而人工智能,才剛剛開始。
幾天前,我發(fā)表了一篇文章(參見https://blog.chiariglione.org/the-governance-of-the-mpai-ecosystem/)。文中,我寫道:“如果一臺AI機(jī)器通過仔細(xì)訓(xùn)練后,可以發(fā)現(xiàn)某些特定的編碼模式比其他模式更通用,那么它將很可能會比人類按照概率論機(jī)制所推導(dǎo)的編碼模式取得更好的壓縮率。” AI可以像人類那樣根據(jù)經(jīng)驗解釋新事物,因此機(jī)器積累經(jīng)驗的能力必然會隨著處理和存儲能力的增加而增加。然而,不要指望AI視頻編碼將在短期內(nèi)超越傳統(tǒng)視頻編碼。技術(shù)雖然發(fā)展很快,但是對過去技術(shù)的投資如此巨大,新技術(shù)的部署必然需要長久的時間。
激動人心的未來就在眼前?!?/p>
——摘自《對話MPEG創(chuàng)始人Leonardo Chiariglione: MPEG精神將在MPAI中延續(xù)》
“LiveVideoStack: 對于音視頻技術(shù)的未來發(fā)展,還可能會有哪些令人期待的創(chuàng)新?在AI與視頻編碼技術(shù)結(jié)合上,未來有可能會出現(xiàn)哪些突破?
張昊:我非常期待基于AI的圖像視頻編碼技術(shù)的創(chuàng)新。目前基于傳統(tǒng)視頻編碼框架提升壓縮率已經(jīng)越來越困難,我們期待一個新的框架。目前AI視頻編碼還達(dá)不到最新傳統(tǒng)編碼標(biāo)準(zhǔn)(比如VVC)的水平,但是這個方向最近不斷有新的研究成果發(fā)布出來,相信性能提升會加快。要是未來AI編碼成為業(yè)界廣泛采用的方案,那編碼器的優(yōu)化可能會需要與以往不同的技術(shù)。當(dāng)然,在完全的AI編碼成為現(xiàn)實之前,可能會有一個中間狀態(tài),比如結(jié)合傳統(tǒng)架構(gòu)和AI模塊的編碼技術(shù)和標(biāo)準(zhǔn)。這要求編碼工程師既要懂傳統(tǒng)編碼,也要了解AI的相關(guān)知識。
目前端對端的AI+視頻編碼,雖然成果不斷涌現(xiàn),但是短期內(nèi)可能還很難大幅度超過VVC的性能。但基于傳統(tǒng)編碼框架,加入一些編碼效率更高的AI模塊(比如濾波、預(yù)測),是有可能在短期內(nèi)提升壓縮率的。因此我看好基于傳統(tǒng)編碼框架+AI這條思路的技術(shù)進(jìn)展?!?/p>
——摘自《中南大學(xué)張昊:我非常期待基于AI的圖像視頻編碼技術(shù)的創(chuàng)新》
無論是AI視頻編碼,還是AI+傳統(tǒng)視頻編碼框架,其本質(zhì)上還是希望在高效編碼的同時獲得高清的圖像視頻。在本次上海站大會的「視頻編解碼性能優(yōu)化與實現(xiàn)」專題,將會從不同的編碼方式入手,如:面向機(jī)器智能的數(shù)據(jù)編碼、基于視頻的高維視覺數(shù)據(jù)高效編碼等,來解決不同視頻應(yīng)用場景所出現(xiàn)的問題。
了解更多該專題詳情請掃碼或長按二維碼
音頻
“LiveVideoStack: 對于未來想從事音頻工作的同學(xué),您有哪些建議和意見?
王晶:相比計算機(jī)視覺、通信網(wǎng)絡(luò)、人工智能等概念較大的發(fā)展方向,目前專門從事音頻信號處理或者音頻相關(guān)技術(shù)的研究人員并不太多,但實際的工作崗位需求還是挺大的,尤其是高水平研究人員相對欠缺。事實上,從事音頻工作的人員由于對信號處理和計算機(jī)編程能力都需要兼顧,也很容易過渡到其他技術(shù)崗位。音頻領(lǐng)域(廣義上包括語音和音頻處理)當(dāng)前和計算機(jī)技術(shù)、通信網(wǎng)絡(luò)、人工智能、虛擬現(xiàn)實甚至生物醫(yī)學(xué)等結(jié)合都非常緊密,相比傳統(tǒng)單純從信號處理或計算機(jī)編程的角度來看,很多實際應(yīng)用問題的解決更傾向于需要交叉學(xué)科基礎(chǔ)。
對于未來想從事音頻工作的同學(xué)們,尤其是想在理論結(jié)合實踐上有技術(shù)突破,建議首先學(xué)習(xí)數(shù)字信號處理、信息論、計算機(jī)編程、通信網(wǎng)絡(luò)、人工智能等基礎(chǔ)知識,然后深入掌握音頻信號處理的各類常用算法和典型應(yīng)用場景,研究課題或者工作內(nèi)容的選擇可以針對實際應(yīng)用場景的需求開展具體研究。目前網(wǎng)絡(luò)上開源代碼和學(xué)習(xí)材料非常多,尤其是基于AI的聲音處理技術(shù),建議同學(xué)們在系統(tǒng)學(xué)習(xí)基礎(chǔ)知識的同時多加編程實踐練習(xí),以便更好地理解算法思路,至少應(yīng)當(dāng)獨立完成一到兩個案例的實現(xiàn)。進(jìn)入研究生學(xué)習(xí)階段的同學(xué)則需多關(guān)注領(lǐng)域內(nèi)的頂級會議和刊物,參加一些學(xué)術(shù)或者行業(yè)會議與同行進(jìn)行交流,善于發(fā)現(xiàn)研究中的問題,并利用所學(xué)知識進(jìn)行分析和解決?!?/p>
——摘自《對話王晶:音頻人才亟待培養(yǎng),高水平研究人員尤其欠缺》
在擁有理論基礎(chǔ)的前提下,實踐就顯得尤為重要。尤其是在面臨不同場景時,同一種音頻技術(shù)又將會起到不同的作用。在本次上海站大會「聲臨其境—音頻沉浸體驗」專題,將涵蓋三種場景:影視、遠(yuǎn)程會議和3D在線互動場景。而在不同場景下又會用到哪些技術(shù)呢?等你來一同探索吧~
了解更多該專題詳情請掃碼
傳輸網(wǎng)絡(luò)
“RTC技術(shù)領(lǐng)域有其自身的特點,關(guān)注用戶側(cè)感受和訴求是從事這方面技術(shù)人員很容易忽視的。例如:流媒體在用戶側(cè)的感受并不敏感,技術(shù)上HEVC/AV1比AVC提高多少倍壓縮效率,用戶側(cè)感受到的可能是手機(jī)燙不燙手,耗不耗電。宣傳固然重要,但技術(shù)不應(yīng)該忽略用戶感受去談先進(jìn)性。
技術(shù)迭代不是一個數(shù)字比武過程,不是誰的數(shù)字指標(biāo)高就會成為主流技術(shù)的,技術(shù)迭代過程是一個趨同效應(yīng),能契合某一類大規(guī)模應(yīng)用場景往往會成為主流或者標(biāo)準(zhǔn),作為從業(yè)人員不應(yīng)該死盯技術(shù)指標(biāo)上,用更高的技術(shù)指標(biāo)去打敗行業(yè)先行者是非常困難的,所以在固有領(lǐng)域里面盲目的技術(shù)精進(jìn)也是一種故步自封,后來者應(yīng)該盡力找到技術(shù)更廣闊的應(yīng)用場景形成新趨勢。
后疫情時代RTC成為內(nèi)卷嚴(yán)重的領(lǐng)域,一方面終端能力沒有升級,另一方面疫情期間帶來的應(yīng)用場景流量出現(xiàn)了消退的跡象,巨頭橫行,而新場景還沒有出現(xiàn)。但高分辨率、實時虛擬現(xiàn)實等高碼率應(yīng)用剛剛萌芽,超大碼率會讓UDP協(xié)議給kernel帶來的負(fù)擔(dān)越來越大,高帶寬與低延遲、大并發(fā)的矛盾將會在新的場景更加尖銳,新一代的RTC架構(gòu)有可能會出現(xiàn)TCP/UDP孿生模式?!?/p>
——摘自《歷經(jīng)5代跨越25年的RTC架構(gòu)演化史》
“LiveVideoStack:QUIC/HTTP3越來越流行, 甚至有人提出讓W(xué)ebRTC通過QUIC來傳輸,您如何看待RTP基于QUIC傳輸?RTP OVER QUIC 是一個好主意嗎?
Ron Frederick:QUIC是一個非常有趣的協(xié)議,同TCP相比,它有很多優(yōu)勢,尤其是傳輸實時數(shù)據(jù)的時候(QUIC可以使數(shù)據(jù)包按照任何順序得到處理)。雖然HTTP/2增加了在單個TCP連接上多路復(fù)用多個流的能力,但TCP迫使數(shù)據(jù)始終要按順序處理,這意味著一個多路復(fù)用流上的數(shù)據(jù)包丟失將阻止其他所有流中的數(shù)據(jù)處理。QUIC有解決這個問題的潛力,甚至可能會演變?yōu)橹С植煌鞯牟煌貍鞑呗?,這對于音視頻內(nèi)容來說是非常有利的(因為在出現(xiàn)一定延遲后,到達(dá)的數(shù)據(jù)包將不再有用)。我非常期待看到這項工作的發(fā)展!”
——摘自《對話RTP作者Ron Frederick: 我非常期待QUIC的發(fā)展》
在傳輸網(wǎng)絡(luò)的世界中,追求極低的延時成為技術(shù)者們的頭等大事。尤其是在大通量媒體傳輸、實時會話業(yè)務(wù)、萬人場景等,對此,在本次「多媒體傳輸網(wǎng)絡(luò)優(yōu)化」專題中都會討論到。
了解更多該專題詳情請掃碼
視頻內(nèi)容生產(chǎn)
“AI在視頻領(lǐng)域的技術(shù)發(fā)展,為視頻內(nèi)容的重建提供了新的技術(shù)手段?;贏I的超分辨率技術(shù)可以實現(xiàn)標(biāo)清到高清(SD轉(zhuǎn)HD)、或者高清到4K甚至8K的分辨率的提升,可以彌補(bǔ)大量的圖像細(xì)節(jié);通過基于AI的逆色調(diào)映射(Inverse Tone Mapping)技術(shù)和色彩增強(qiáng)技術(shù),可以實現(xiàn)對比度、色彩飽和度等多個層面的提升。這些提升的細(xì)節(jié),需要用HDR視頻的高動態(tài)范圍和寬色域來進(jìn)行表達(dá)。NTIRE 2021首次舉辦了HDR視頻圖像生成技術(shù)的大賽。
我們根據(jù)典型的應(yīng)用場景,可以將智能視頻重制劃分為智能畫質(zhì)提升和智能老片修復(fù)兩個分類。其中智能老片修復(fù)可以極大地提升傳統(tǒng)的人工修復(fù)效率,而超分和HDR則進(jìn)一步提升彌補(bǔ)細(xì)節(jié),調(diào)節(jié)亮度和飽和度,盡量提升到接近真4K的水平?!?/p>
——摘自《HDR技術(shù)趨勢淺析》
更高清的視頻內(nèi)容生產(chǎn)端是為我們所關(guān)注的,其消費(fèi)端也是我們關(guān)心的方面。在本次「視頻內(nèi)容生產(chǎn)與消費(fèi)體驗創(chuàng)新」專題中,根據(jù)不同的消費(fèi)場景,如:直播賽事、APP、視頻節(jié)目等,在對應(yīng)的生產(chǎn)環(huán)節(jié)中又會遇到哪些問題呢?
了解更多該專題詳情請掃碼
大會日程
以上提到的相關(guān)音視頻技術(shù)專題盡在本次LiveVideoStackCon 2022 音視頻技術(shù)大會上海站,于8月5-6日召開。屆時,還會有更多議題為大家展現(xiàn)。還有更多話題等你來解鎖,詳情見大會專題頁了解:https://sh2022.livevideostack.cn/topics
發(fā)評論!每天贏獎品
點擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機(jī)派送獎品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計師平臺,提供獎品贊助 聯(lián)系我們
AI輔助海報設(shè)計101例
已累計誕生 753 位幸運(yùn)星