您的位置:首頁 > 科技 >

        「克隆」新華社女記者 全球首位3D AI合成主播由搜狗推出

        2020-05-27 10:27:49 來源: 機(jī)器之心

        或許在不久的未來,你再也分不清視頻中的主持人,究竟是真人還是虛擬人,而這一天正在到來。先看這張圖,主持人邁著輕快的步伐走進(jìn)演播室,

        或許在不久的未來,你再也分不清視頻中的主持人,究竟是真人還是虛擬人,而這一天正在到來。

        先看這張圖,主持人邁著輕快的步伐走進(jìn)演播室,面帶微笑,姿態(tài)端莊得體,動(dòng)作自然。

        「新小微」播報(bào)時(shí)的面部表情

        逼真否?如果不告訴你,你能猜到它是一個(gè)虛擬人嗎?

        它由搜狗公司聯(lián)合新華社推出,是全球首位 3D AI 合成主播,編號(hào)「新小微」。

        「逼真」大概是我們對于表現(xiàn)力極高的一種贊揚(yáng),比如在《霸王別姬》中,「袁四爺」看到程蝶衣出神入化的演技后,發(fā)出「虞姬再生」的感嘆。搜狗 3D AI 主播又何以做到逼真?

        栩栩如生的形象之下,它還是一個(gè)完全由 AI 算法實(shí)時(shí)驅(qū)動(dòng)的 3D 數(shù)字人。這和那些游戲影視中依靠美術(shù)師逐幀勾畫的 3D 動(dòng)畫人有本質(zhì)不同。

        兩會(huì)開幕前夕,這位「新小微」已正式「上崗」,為你帶來兩會(huì)新聞資訊報(bào)道。

        一、「高逼真」的背后

        「新小微」,是一個(gè) 3D AI 合成主播。

        它以新華社記者趙琬微為原型,通過超寫實(shí) 3D 數(shù)字人建模、多模態(tài)識(shí)別及生成、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)、遷移學(xué)習(xí)等技術(shù)「熔爐」,煉就而成。

        你只需要輸入一段文本,它就能生成語音數(shù)據(jù)、3D 肌肉運(yùn)動(dòng)參數(shù),最后通過渲染,生成一段 3D 合成主播視頻,可以 360 度多機(jī)位多景深呈現(xiàn)。

        從效果上來說,3D AI 合成主播給人的最大印象便是高逼真,它較好的還原了真人的發(fā)膚、表情;在特寫鏡頭下,連頭發(fā)絲和皮膚毛孔都清晰可見。

         


        其次是靈活性、可塑性更強(qiáng),3D AI 合成主播可以走動(dòng)、轉(zhuǎn)身、可以擺出各種復(fù)雜的動(dòng)作和姿態(tài),具備在更廣闊空間使用的潛力。

        透過 3D AI 合成主播技術(shù)實(shí)現(xiàn)過程,我們可以得知它為何擁有如此逼真的效果。

        首先基于真人原型采集海量數(shù)據(jù):原型戴著數(shù)據(jù)采集頭盔,幾百個(gè)攝像頭會(huì)對其身體各個(gè)部位進(jìn)行全方位「打點(diǎn)」掃描,采集每一處細(xì)節(jié),并對其多種形態(tài)的表情和動(dòng)作進(jìn)行細(xì)致入微地捕捉記錄。

         


        其次,搜狗采用了行業(yè)領(lǐng)先的掃描還原算法,以及面部肌肉驅(qū)動(dòng)、表情肢體捕捉等技術(shù),生成高逼真度的 3D 數(shù)字人模型。

        然后,通過搜狗的 AI 算法對 3D 數(shù)字人模型進(jìn)行實(shí)時(shí)驅(qū)動(dòng)、渲染,使其面部表情唇動(dòng)、肢體動(dòng)作和語言表達(dá)能力達(dá)到一個(gè)較高的度契合。

        搜狗 AI 交互技術(shù)部總經(jīng)理陳偉談道,3D 合成主播的難點(diǎn)在于如何做到高逼真度。為了讓模型效果更逼真,搜狗采集了更為精細(xì)的數(shù)據(jù),并進(jìn)行精準(zhǔn)標(biāo)注。

        另一方面,搜狗采用更符合人體生理結(jié)構(gòu)的肌肉模型,讓機(jī)器去學(xué)習(xí)肌肉的運(yùn)動(dòng)規(guī)律,從而讓表情、動(dòng)作之間的過度更加自然。

        搜狗一位產(chǎn)品經(jīng)理也談道,為了讓「新小微」更加逼真,他們花了很多精力去了解超寫實(shí)的制作行業(yè),如何把一個(gè)真人的動(dòng)作映射在模型上,并反過來改善 3D 制作行業(yè)的模型,讓模型驅(qū)動(dòng)起來更加逼真。

        為此,從去年 10 月到今年 5 月,搜狗技術(shù)團(tuán)隊(duì)投入近半年時(shí)間,完成這一挑戰(zhàn)。

        二、完全 AI 驅(qū)動(dòng)的 3D 數(shù)字人

        隨著游戲、影視的發(fā)展,逼真的 3D 數(shù)字人似乎早已存在,搜狗為何敢號(hào)稱是全球首個(gè) 3D AI 合成主播?

        仔細(xì)觀察你會(huì)發(fā)現(xiàn),3D AI 合成主播和 3D 數(shù)字人有著本質(zhì)不同,前者是完全基于 AI 算法實(shí)現(xiàn)驅(qū)動(dòng),而非人工驅(qū)動(dòng)。

        具體來說,3D AI 合成主播靠 AI 算法實(shí)時(shí)驅(qū)動(dòng),輸入一個(gè)文本就能輸出一個(gè)視頻,往往生成一個(gè) 1 分鐘的視頻,僅只需要 1 分鐘,相比人工驅(qū)動(dòng),幾乎可以看作實(shí)時(shí)生成。

        而游戲、電影行業(yè)多是靠人工驅(qū)動(dòng)來完成一個(gè)超寫實(shí)的 3D 模型。比如在一個(gè) 10 人構(gòu)成的動(dòng)畫中,往往要對這 10 個(gè)演員進(jìn)行掃描、動(dòng)作捕捉、面部捕捉,進(jìn)行真人與卡通人物綁定,還需要對他們的聲音進(jìn)行采集等等,需要美術(shù)師一幀一幀勾畫出來,耗費(fèi)巨大的時(shí)間成本。

        在游戲場景中,一個(gè) 1 分鐘的轉(zhuǎn)場動(dòng)畫,往往要一個(gè)動(dòng)畫師工作一天半。可以說,3D 數(shù)字人的制作是一個(gè)勞動(dòng)力密集型工作。

        其次,二者 3D 模型的制作技術(shù)不同。

        在 3D 設(shè)計(jì)中,很多做寫實(shí)類的 3D 模型多是采用 Blendshape 來做的,其邏輯在于通過一個(gè)極限表情乘以不同系數(shù),得到生成的表情,但往往效果較為粗糙,表情之間的過度也不夠流暢自然。

        而搜狗采用肌肉模型、肌肉綁定來做 3D 模型,一方面它使 3D 人物的動(dòng)作更加逼真;另一方面肌肉模型中每一個(gè)肌肉點(diǎn)的運(yùn)動(dòng),都會(huì)連帶很多面部臉譜協(xié)同運(yùn)動(dòng),整體看起來自然度會(huì)更高。

        從面部表情到肢體動(dòng)作的細(xì)節(jié)程度,搜狗 3D AI 合成主播達(dá)到了不亞于一些影視作品及游戲 NPC 的寫實(shí)度。

        此外,搜狗還將遷移學(xué)習(xí)運(yùn)用到 3D AI 合成主播中,通過對一般人動(dòng)作的預(yù)訓(xùn)練,僅需真人原型近 1 小時(shí)的數(shù)據(jù),就合成了如今的「新小微」。

        AI 技術(shù)的加持,使 3D AI 合成主播在產(chǎn)出視頻上成本更低、效率更高。

        而在 3D 設(shè)計(jì)中,制作一個(gè)小時(shí)完整的 3D 寫實(shí)度視頻,除了耗費(fèi)大量時(shí)間外,往往要花費(fèi)成百上千萬人民幣。

        可以預(yù)見,3D 制作行業(yè),AI 驅(qū)動(dòng)大有可為。

        三、「進(jìn)化中」的搜狗分身

        還記得搜狗在 2018 年推出的首個(gè) AI 合成主播嗎?它是一個(gè) 2D AI 合成主播,以新華社主持人邱浩為原型。

         


        如今推出的「新小微」是 3D AI 合成主播。你可以把它們看做一對「兄妹」,它們共同的父母是「搜狗分身」。

        搜狗分身與其說是一項(xiàng)技術(shù),不如說是一個(gè)框架、一款產(chǎn)品。它所要做的就是「克隆」(合成)人類的聲音、面部表情、動(dòng)作等,最終變成一個(gè)虛擬助理,更好的幫助人類表達(dá)。

        這也契合了搜狗一直以來的使命——讓表達(dá)和獲取信息更簡單。

        經(jīng)過 1 年半的迭代,目前搜狗分身具備了對話交互、多語種播報(bào)等能力,在媒體、客服、司法等領(lǐng)域都得到了應(yīng)用。

        需要指出的是,2D AI 合成主播和 3D AI 合成主播是搜狗分身下的兩條并行發(fā)展路線。

        前者的優(yōu)勢在于真實(shí)性、逼真度更高,但靈活性略顯不足;而后者的靈活性、可塑性更強(qiáng),應(yīng)用領(lǐng)域更廣。二者在應(yīng)用場景上具有一定互補(bǔ)性。

        陳偉稱,搜狗會(huì)在 2D、3D 技術(shù)上一起往前推進(jìn)。

        從 2D AI 合成主播到 3D AI 合成主播,從表達(dá)式到對話交互,搜狗分身正在不斷進(jìn)化。

        搜狗分身也在不斷進(jìn)入垂直領(lǐng)域,圍繞特定領(lǐng)域進(jìn)行知識(shí)計(jì)算,積累「智慧」高度。

        一個(gè)有形象、多模態(tài)的虛擬個(gè)人助理正在逐漸形成。

        首屆「馬欄山」杯國際音視頻算法大賽正在火熱進(jìn)行中。大賽聚焦圖像和推薦、畫質(zhì)優(yōu)化三大領(lǐng)域,設(shè)置包括視頻特定點(diǎn)位追蹤、視頻推薦、畫質(zhì)損傷修復(fù)三大賽題。優(yōu)秀參賽者不僅可獲得獎(jiǎng)金,獲獎(jiǎng)解決方案還有機(jī)會(huì)被應(yīng)用于芒果 TV 核心領(lǐng)域,在校學(xué)生還將可能加入芒果 TV「青芒計(jì)劃」,發(fā)放「special offer」。

        關(guān)鍵詞: 搜狗

        精選 導(dǎo)讀

        募資55億港元萬物云啟動(dòng)招股 預(yù)計(jì)9月29日登陸港交所主板

        萬科9月19日早間公告,萬物云當(dāng)日啟動(dòng)招股,預(yù)計(jì)發(fā)行價(jià)介乎每股47 1港元至52 7港元,預(yù)計(jì)9月29日登陸港交所主板。按發(fā)行1 167億股計(jì)算,萬

        發(fā)布時(shí)間: 2022-09-20 10:39
        管理   2022-09-20

        公募基金二季度持股情況曝光 隱形重倉股多為高端制造業(yè)

        隨著半年報(bào)披露收官,公募基金二季度持股情況曝光。截至今年二季度末,公募基金全市場基金總數(shù)為9794只,資產(chǎn)凈值為269454 75億元,同比上

        發(fā)布時(shí)間: 2022-09-02 10:45
        資訊   2022-09-02

        又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財(cái)報(bào)動(dòng)作不斷

        再有上市公司宣布變賣房產(chǎn)。四川長虹25日稱,擬以1 66億元的轉(zhuǎn)讓底價(jià)掛牌出售31套房產(chǎn)。今年以來,A股公司出售房產(chǎn)不斷。根據(jù)記者不完全統(tǒng)

        發(fā)布時(shí)間: 2022-08-26 09:44
        資訊   2022-08-26

        16天12連板大港股份回復(fù)深交所關(guān)注函 股份繼續(xù)沖高

        回復(fù)交易所關(guān)注函后,大港股份繼續(xù)沖高。8月11日大港股份高開,隨后震蕩走高,接近收盤時(shí)觸及漲停,報(bào)20 2元 股。值得一提的是,在7月21日

        發(fā)布時(shí)間: 2022-08-12 09:56
        資訊   2022-08-12

        萬家基金再添第二大股東 中泰證券擬受讓11%基金股權(quán)

        7月13日,中泰證券發(fā)布公告,擬受讓齊河眾鑫投資有限公司(以下簡稱齊河眾鑫)所持有的萬家基金11%的股權(quán),交易雙方共同確定本次交易的標(biāo)的資

        發(fā)布時(shí)間: 2022-07-14 09:39
        管理   2022-07-14

        央行連續(xù)7日每天30億元逆回購 對債市影響如何?

        央行12日再次開展了30億元逆回購操作,中標(biāo)利率2 10%。這已是央行連續(xù)7日每天僅進(jìn)行30億元的逆回購縮量投放,創(chuàng)下去年1月以來的最低操作規(guī)

        發(fā)布時(shí)間: 2022-07-13 09:38
        資訊   2022-07-13

        美元指數(shù)創(chuàng)近20年新高 黃金期貨創(chuàng)出逾9個(gè)月新低

        由于對美聯(lián)儲(chǔ)激進(jìn)加息的擔(dān)憂,美元指數(shù)11日大漲近1%創(chuàng)出近20年新高。受此影響,歐美股市、大宗商品均走弱,而黃金期貨創(chuàng)出逾9個(gè)月新低。美

        發(fā)布時(shí)間: 2022-07-13 09:36
        資訊   2022-07-13

        美股三大股指全線下跌 納斯達(dá)克跌幅創(chuàng)下記錄以來最大跌幅

        今年上半年,美股持續(xù)回落。數(shù)據(jù)顯示,道瓊斯指數(shù)上半年下跌15 3%,納斯達(dá)克綜合指數(shù)下跌29 5%,標(biāo)普500指數(shù)下跌20 6%。其中,納斯達(dá)克連續(xù)

        發(fā)布時(shí)間: 2022-07-04 09:51
        推薦   2022-07-04

        融資客熱情回升 兩市融資余額月內(nèi)增加超344億元

        近期A股走強(qiáng),滬指6月以來上漲4%,融資客熱情明顯回升。數(shù)據(jù)顯示,截至6月16日,兩市融資余額1 479萬億元,月內(nèi)增加344 67億元,最近一個(gè)半

        發(fā)布時(shí)間: 2022-06-20 09:41
        資訊   2022-06-20

        4個(gè)交易日凈買入超百億元 北向資金持續(xù)流入A股市場

        北向資金凈流入態(tài)勢延續(xù)。繼6月15日凈買入133 59億元后,北向資金6月16日凈買入44 52億元。自5月27日至今,除6月13日以外,北向資金累計(jì)凈

        發(fā)布時(shí)間: 2022-06-17 09:37
        推薦   2022-06-17

        熱門TAG

        more
        美聯(lián)儲(chǔ)今年已將基準(zhǔn)利率從接近零大幅上調(diào)至略高于3% EIA報(bào)告:美國原油庫存及戰(zhàn)略儲(chǔ)備減少,汽油及精煉油庫存輕微波動(dòng) 美國政府更廣泛推動(dòng)從汽油動(dòng)力汽車轉(zhuǎn)向電動(dòng)汽車的一部分 數(shù)據(jù)顯示:今年9月日本船企接單量延續(xù)8月下跌下跌趨勢 公告顯示:2022年前三季度TCL中環(huán)研發(fā)投入為27億元 占比營業(yè)收入5.42% 新的111.75億英鎊注資列在“對金融機(jī)構(gòu)的援助—支付給英格蘭銀行”標(biāo)題下 本次政府儲(chǔ)備肉投放面向北京18家主要連鎖超市門店及相關(guān)零售終端投放 有交易員預(yù)計(jì):如果LME不采取措施 接下來可能將有數(shù)十萬噸鋁流入LME 據(jù)報(bào)道:繼德國最大釀酒商拉德貝格啤酒公司9月宣布漲價(jià) 據(jù)報(bào)道:澳大利亞礦商Pilbara的鋰礦拍賣價(jià)再創(chuàng)新高 折算后的碳酸鋰成本 中集天達(dá)首次公開發(fā)行A股股票 招股書顯示此次擬公開發(fā)行股數(shù)不超過103, 多家銀行加強(qiáng)綠色金融頂層設(shè)計(jì) 致力于為經(jīng)濟(jì)社會(huì)綠色低碳轉(zhuǎn)型貢獻(xiàn)力量 萊特幣 比特幣 數(shù)字資產(chǎn) 火幣 以太經(jīng)典 比特股 EOS 比特幣現(xiàn)金 量子鏈 Hcash 泰達(dá)幣 瑞波幣 Qcash 比特幣鉆石 超級(jí)比特幣 優(yōu)幣 硬分叉 加密貨幣