為了讓你在每次視頻通話中都能完美展現(xiàn)自己，在本周舉行的CVPR（國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議）上，由NVIDIA研究人員Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰寫發(fā)表的Vid2Vid Cameo論文提供了一個(gè)全新的解決方案。

　　疫情期間，線上視頻會(huì)議成為人們生活與工作溝通的重要方式。但是你是不是會(huì)遇到如下尷尬：剛起床，頭發(fā)凌亂、穿著睡衣，但是卻被老板拉上開會(huì)。

　　重塑視頻會(huì)議 NVIDIA Vid2Vid Cameo打造逼真的AI人臉說(shuō)話動(dòng)態(tài)

　　逼真的AI人臉說(shuō)話動(dòng)態(tài)

　　Vid2Vid Cameo是用于視頻會(huì)議的NVIDIA Maxine SDK背后的深度學(xué)習(xí)模型之一，它借助生成式對(duì)抗網(wǎng)絡(luò)（GAN），僅用一張人物2D圖像即可合成逼真的人臉說(shuō)話視頻。

　　Vid2Vid Cameo只需兩個(gè)元素，即可為視頻會(huì)議打造逼真的AI人臉說(shuō)話動(dòng)態(tài)，這兩個(gè)元素分別是一張人物外貌照片和一段視頻流，它們決定了如何對(duì)圖像進(jìn)行動(dòng)畫處理。

　　要使用該模型，參與者需要在加入視頻通話之前提交一張參照?qǐng)D像（真實(shí)照片或卡通頭像）。在會(huì)議期間，AI 模型將捕捉每個(gè)人的實(shí)時(shí)動(dòng)作，并將其應(yīng)用于之前上傳的靜態(tài)圖像。

　　也就是說(shuō)，上傳一張穿著正裝的照片之后，與會(huì)人員即使頭發(fā)凌亂、穿著睡衣，也能在通話中以穿著得體工作服裝的形象出現(xiàn)，因?yàn)锳I可以將用戶的面部動(dòng)作映射到參照照片上。如果主體向左轉(zhuǎn)，則技術(shù)可以調(diào)整視角，以便參與者看上去是直接面對(duì)攝像頭。

　　除了可以幫助與會(huì)者展現(xiàn)出色狀態(tài)外，這項(xiàng)AI技術(shù)還可將視頻會(huì)議所需的帶寬降低10倍，從而避免抖動(dòng)和延遲。它很快將在NVIDIA Video Codec SDK中作為AI Face Codec推出，為開發(fā)者提供經(jīng)過(guò)優(yōu)化的預(yù)訓(xùn)練模型，以便在視頻會(huì)議和直播中實(shí)現(xiàn)視頻、音頻和增強(qiáng)現(xiàn)實(shí)效果。

　　更廣的應(yīng)用空間

　　其實(shí)應(yīng)用于視頻通話只是Vid2Vid Cameo的一個(gè)重要應(yīng)用場(chǎng)景，其還可用于協(xié)助動(dòng)畫師、照片編輯師和游戲開發(fā)者的工作。開發(fā)者已經(jīng)能采用Maxine AI效果，包括智能除噪、視頻升采樣和人體姿態(tài)估計(jì)。SDK支持免費(fèi)下載，還可與NVIDIA Jarvis平臺(tái)搭配用于對(duì)話式AI應(yīng)用，包括轉(zhuǎn)錄和翻譯。

　　模型基于NVIDIA DGX系統(tǒng)開發(fā)，使用包含18萬(wàn)個(gè)高質(zhì)量人臉說(shuō)話視頻的數(shù)據(jù)集進(jìn)行訓(xùn)練。相應(yīng)網(wǎng)絡(luò)學(xué)會(huì)了識(shí)別20個(gè)關(guān)鍵點(diǎn)，這些關(guān)鍵點(diǎn)可用于在沒有人工標(biāo)注的情況下對(duì)面部動(dòng)作進(jìn)行建模。這些點(diǎn)對(duì)特征（包括眼睛、嘴和鼻子）的位置進(jìn)行編碼。

　　然后，它會(huì)從通話主導(dǎo)者的參照?qǐng)D像中提取這些關(guān)鍵點(diǎn)，這些關(guān)鍵點(diǎn)可以提前發(fā)送給其他的視頻會(huì)議參與者，也可以重新用于之前的會(huì)議。這樣一來(lái)，視頻會(huì)議平臺(tái)只需發(fā)送演講者面部關(guān)鍵點(diǎn)的移動(dòng)情況數(shù)據(jù)，無(wú)需將某參與者的大量直播視頻流推送給其他人。

　　對(duì)于接收者一端，GAN模型會(huì)使用此信息，模擬參照?qǐng)D像的外觀以合成一個(gè)視頻。

　　通過(guò)僅來(lái)回壓縮及發(fā)送頭部位置和關(guān)鍵點(diǎn)，而不是完整的視頻流，此技術(shù)將視頻會(huì)議所需的帶寬降低10倍，從而提供更流暢的用戶體驗(yàn)。該模型可以進(jìn)行調(diào)整，傳輸不同數(shù)量的關(guān)鍵點(diǎn)，以實(shí)現(xiàn)在不影響視覺質(zhì)量的條件下，適應(yīng)不同的帶寬環(huán)境。

　　此外，還可以自由調(diào)整所生成的人臉說(shuō)話視頻的視角，可以從側(cè)邊輪廓或筆直角度，也可以從較低或較高的攝像頭角度來(lái)顯示用戶。處理靜態(tài)圖像的照片編輯者也可以使用此功能。

　　NVIDIA研究人員發(fā)現(xiàn)，無(wú)論是參照?qǐng)D像和視頻來(lái)自同一個(gè)人，還是AI負(fù)責(zé)將某個(gè)人的動(dòng)作轉(zhuǎn)移到另一個(gè)人的參照?qǐng)D像，Vid2Vid Cameo均能生成更逼真、更清晰的結(jié)果，優(yōu)于先進(jìn)的模型。

　　后一項(xiàng)功能可將演講者的面部動(dòng)作，應(yīng)用于視頻會(huì)議中的數(shù)字頭像動(dòng)畫，甚至可以應(yīng)用于制作視頻游戲或卡通角色的逼真形象和動(dòng)作。

　　結(jié)語(yǔ)

　　人工智能技術(shù)在便利人們生活和工作方面正在發(fā)揮越來(lái)越重要的作用，而Vid2Vid Cameo借助NVIDI強(qiáng)大的AI能力，讓視頻會(huì)議的體驗(yàn)更棒，乃至在專業(yè)的圖形和視頻制造中有著巨大的想象空間。

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

重塑視頻會(huì)議NVIDIA Vid2Vid Cameo打造逼真的AI人臉說(shuō)話動(dòng)態(tài)

評(píng)論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)