或許在不久的未來,你再也分不清視頻中的主持人,究竟是真人還是虛擬人,而這一天正在到來。先看這張圖,主持人邁著輕快的步伐走進(jìn)演播室,
或許在不久的未來,你再也分不清視頻中的主持人,究竟是真人還是虛擬人,而這一天正在到來。
先看這張圖,主持人邁著輕快的步伐走進(jìn)演播室,面帶微笑,姿態(tài)端莊得體,動(dòng)作自然。
「新小微」播報(bào)時(shí)的面部表情
逼真否?如果不告訴你,你能猜到它是一個(gè)虛擬人嗎?
它由搜狗公司聯(lián)合新華社推出,是全球首位 3D AI 合成主播,編號(hào)「新小微」。
「逼真」大概是我們對于表現(xiàn)力極高的一種贊揚(yáng),比如在《霸王別姬》中,「袁四爺」看到程蝶衣出神入化的演技后,發(fā)出「虞姬再生」的感嘆。搜狗 3D AI 主播又何以做到逼真?
栩栩如生的形象之下,它還是一個(gè)完全由 AI 算法實(shí)時(shí)驅(qū)動(dòng)的 3D 數(shù)字人。這和那些游戲影視中依靠美術(shù)師逐幀勾畫的 3D 動(dòng)畫人有本質(zhì)不同。
兩會(huì)開幕前夕,這位「新小微」已正式「上崗」,為你帶來兩會(huì)新聞資訊報(bào)道。
一、「高逼真」的背后
「新小微」,是一個(gè) 3D AI 合成主播。
它以新華社記者趙琬微為原型,通過超寫實(shí) 3D 數(shù)字人建模、多模態(tài)識(shí)別及生成、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)、遷移學(xué)習(xí)等技術(shù)「熔爐」,煉就而成。
你只需要輸入一段文本,它就能生成語音數(shù)據(jù)、3D 肌肉運(yùn)動(dòng)參數(shù),最后通過渲染,生成一段 3D 合成主播視頻,可以 360 度多機(jī)位多景深呈現(xiàn)。
從效果上來說,3D AI 合成主播給人的最大印象便是高逼真,它較好的還原了真人的發(fā)膚、表情;在特寫鏡頭下,連頭發(fā)絲和皮膚毛孔都清晰可見。
其次是靈活性、可塑性更強(qiáng),3D AI 合成主播可以走動(dòng)、轉(zhuǎn)身、可以擺出各種復(fù)雜的動(dòng)作和姿態(tài),具備在更廣闊空間使用的潛力。
透過 3D AI 合成主播技術(shù)實(shí)現(xiàn)過程,我們可以得知它為何擁有如此逼真的效果。
首先基于真人原型采集海量數(shù)據(jù):原型戴著數(shù)據(jù)采集頭盔,幾百個(gè)攝像頭會(huì)對其身體各個(gè)部位進(jìn)行全方位「打點(diǎn)」掃描,采集每一處細(xì)節(jié),并對其多種形態(tài)的表情和動(dòng)作進(jìn)行細(xì)致入微地捕捉記錄。
其次,搜狗采用了行業(yè)領(lǐng)先的掃描還原算法,以及面部肌肉驅(qū)動(dòng)、表情肢體捕捉等技術(shù),生成高逼真度的 3D 數(shù)字人模型。
然后,通過搜狗的 AI 算法對 3D 數(shù)字人模型進(jìn)行實(shí)時(shí)驅(qū)動(dòng)、渲染,使其面部表情唇動(dòng)、肢體動(dòng)作和語言表達(dá)能力達(dá)到一個(gè)較高的度契合。
搜狗 AI 交互技術(shù)部總經(jīng)理陳偉談道,3D 合成主播的難點(diǎn)在于如何做到高逼真度。為了讓模型效果更逼真,搜狗采集了更為精細(xì)的數(shù)據(jù),并進(jìn)行精準(zhǔn)標(biāo)注。
另一方面,搜狗采用更符合人體生理結(jié)構(gòu)的肌肉模型,讓機(jī)器去學(xué)習(xí)肌肉的運(yùn)動(dòng)規(guī)律,從而讓表情、動(dòng)作之間的過度更加自然。
搜狗一位產(chǎn)品經(jīng)理也談道,為了讓「新小微」更加逼真,他們花了很多精力去了解超寫實(shí)的制作行業(yè),如何把一個(gè)真人的動(dòng)作映射在模型上,并反過來改善 3D 制作行業(yè)的模型,讓模型驅(qū)動(dòng)起來更加逼真。
為此,從去年 10 月到今年 5 月,搜狗技術(shù)團(tuán)隊(duì)投入近半年時(shí)間,完成這一挑戰(zhàn)。
二、完全 AI 驅(qū)動(dòng)的 3D 數(shù)字人
隨著游戲、影視的發(fā)展,逼真的 3D 數(shù)字人似乎早已存在,搜狗為何敢號(hào)稱是全球首個(gè) 3D AI 合成主播?
仔細(xì)觀察你會(huì)發(fā)現(xiàn),3D AI 合成主播和 3D 數(shù)字人有著本質(zhì)不同,前者是完全基于 AI 算法實(shí)現(xiàn)驅(qū)動(dòng),而非人工驅(qū)動(dòng)。
具體來說,3D AI 合成主播靠 AI 算法實(shí)時(shí)驅(qū)動(dòng),輸入一個(gè)文本就能輸出一個(gè)視頻,往往生成一個(gè) 1 分鐘的視頻,僅只需要 1 分鐘,相比人工驅(qū)動(dòng),幾乎可以看作實(shí)時(shí)生成。
而游戲、電影行業(yè)多是靠人工驅(qū)動(dòng)來完成一個(gè)超寫實(shí)的 3D 模型。比如在一個(gè) 10 人構(gòu)成的動(dòng)畫中,往往要對這 10 個(gè)演員進(jìn)行掃描、動(dòng)作捕捉、面部捕捉,進(jìn)行真人與卡通人物綁定,還需要對他們的聲音進(jìn)行采集等等,需要美術(shù)師一幀一幀勾畫出來,耗費(fèi)巨大的時(shí)間成本。
在游戲場景中,一個(gè) 1 分鐘的轉(zhuǎn)場動(dòng)畫,往往要一個(gè)動(dòng)畫師工作一天半。可以說,3D 數(shù)字人的制作是一個(gè)勞動(dòng)力密集型工作。
其次,二者 3D 模型的制作技術(shù)不同。
在 3D 設(shè)計(jì)中,很多做寫實(shí)類的 3D 模型多是采用 Blendshape 來做的,其邏輯在于通過一個(gè)極限表情乘以不同系數(shù),得到生成的表情,但往往效果較為粗糙,表情之間的過度也不夠流暢自然。
而搜狗采用肌肉模型、肌肉綁定來做 3D 模型,一方面它使 3D 人物的動(dòng)作更加逼真;另一方面肌肉模型中每一個(gè)肌肉點(diǎn)的運(yùn)動(dòng),都會(huì)連帶很多面部臉譜協(xié)同運(yùn)動(dòng),整體看起來自然度會(huì)更高。
從面部表情到肢體動(dòng)作的細(xì)節(jié)程度,搜狗 3D AI 合成主播達(dá)到了不亞于一些影視作品及游戲 NPC 的寫實(shí)度。
此外,搜狗還將遷移學(xué)習(xí)運(yùn)用到 3D AI 合成主播中,通過對一般人動(dòng)作的預(yù)訓(xùn)練,僅需真人原型近 1 小時(shí)的數(shù)據(jù),就合成了如今的「新小微」。
AI 技術(shù)的加持,使 3D AI 合成主播在產(chǎn)出視頻上成本更低、效率更高。
而在 3D 設(shè)計(jì)中,制作一個(gè)小時(shí)完整的 3D 寫實(shí)度視頻,除了耗費(fèi)大量時(shí)間外,往往要花費(fèi)成百上千萬人民幣。
可以預(yù)見,3D 制作行業(yè),AI 驅(qū)動(dòng)大有可為。
三、「進(jìn)化中」的搜狗分身
還記得搜狗在 2018 年推出的首個(gè) AI 合成主播嗎?它是一個(gè) 2D AI 合成主播,以新華社主持人邱浩為原型。
如今推出的「新小微」是 3D AI 合成主播。你可以把它們看做一對「兄妹」,它們共同的父母是「搜狗分身」。
搜狗分身與其說是一項(xiàng)技術(shù),不如說是一個(gè)框架、一款產(chǎn)品。它所要做的就是「克隆」(合成)人類的聲音、面部表情、動(dòng)作等,最終變成一個(gè)虛擬助理,更好的幫助人類表達(dá)。
這也契合了搜狗一直以來的使命——讓表達(dá)和獲取信息更簡單。
經(jīng)過 1 年半的迭代,目前搜狗分身具備了對話交互、多語種播報(bào)等能力,在媒體、客服、司法等領(lǐng)域都得到了應(yīng)用。
需要指出的是,2D AI 合成主播和 3D AI 合成主播是搜狗分身下的兩條并行發(fā)展路線。
前者的優(yōu)勢在于真實(shí)性、逼真度更高,但靈活性略顯不足;而后者的靈活性、可塑性更強(qiáng),應(yīng)用領(lǐng)域更廣。二者在應(yīng)用場景上具有一定互補(bǔ)性。
陳偉稱,搜狗會(huì)在 2D、3D 技術(shù)上一起往前推進(jìn)。
從 2D AI 合成主播到 3D AI 合成主播,從表達(dá)式到對話交互,搜狗分身正在不斷進(jìn)化。
搜狗分身也在不斷進(jìn)入垂直領(lǐng)域,圍繞特定領(lǐng)域進(jìn)行知識(shí)計(jì)算,積累「智慧」高度。
一個(gè)有形象、多模態(tài)的虛擬個(gè)人助理正在逐漸形成。
首屆「馬欄山」杯國際音視頻算法大賽正在火熱進(jìn)行中。大賽聚焦圖像和推薦、畫質(zhì)優(yōu)化三大領(lǐng)域,設(shè)置包括視頻特定點(diǎn)位追蹤、視頻推薦、畫質(zhì)損傷修復(fù)三大賽題。優(yōu)秀參賽者不僅可獲得獎(jiǎng)金,獲獎(jiǎng)解決方案還有機(jī)會(huì)被應(yīng)用于芒果 TV 核心領(lǐng)域,在校學(xué)生還將可能加入芒果 TV「青芒計(jì)劃」,發(fā)放「special offer」。
關(guān)鍵詞: 搜狗