自疫情爆發(fā)以來,從省市級媒體到地方縣級融媒體平臺,都紛紛啟用相芯科技的AI虛擬主播投入到疫情報道的實戰(zhàn)中來。虛擬主播是相芯科技對AI數(shù)字人的探索以及應(yīng)用的一部分,正在不斷改變智能媒體的時代。那么什么是AI數(shù)字人?這項技術(shù)是如何實現(xiàn)的?它還有哪些可拓展的實際落地場景?大家可以通過相芯科技CTO秦昊在達摩院AI Inside同行者大會中對AI數(shù)字人的技術(shù)分享,了解一下。
演講嘉賓簡介:秦昊,相芯科技CTO
摘要:在人工智能高速發(fā)展的今天,越來越多的AI技術(shù)開始與計算機圖形技術(shù)結(jié)合解決實際應(yīng)用問題。AI數(shù)字人技術(shù)由人工智能與CG技術(shù)結(jié)合而成,用于提供仿真的人機問答服務(wù),并在視覺通道上優(yōu)化人機交互體驗。相芯科技CTO秦昊在達摩院AI Inside同行者大會中通過企業(yè)在AI數(shù)字人方面的探索及相關(guān)應(yīng)用的案例分享展現(xiàn)AI數(shù)字人技術(shù)的進展及應(yīng)用。
以下內(nèi)容根據(jù)演講視頻以及PPT整理而成。
本文將站在應(yīng)用角度為大家展示相芯科技聯(lián)合阿里云TTS開發(fā)的AI數(shù)字人應(yīng)用案例。
AI數(shù)字人
AI數(shù)字人的概念起源于2017年SIGGRAPH大會上,眾多學(xué)術(shù)機構(gòu)合作推出了一款A(yù)I數(shù)字人Virtual Mike。通過融合當(dāng)時尖端的渲染技術(shù)與動作捕捉技術(shù)大會打造了一個惟妙惟肖的實時虛擬角色。經(jīng)過兩三年的發(fā)展,互聯(lián)網(wǎng)行業(yè)中開始出現(xiàn)數(shù)字人技術(shù)應(yīng)用的案例,如百度公司與浦發(fā)銀行共同打造的AI數(shù)字人“小浦”可以作為銀行的數(shù)字員工為相關(guān)用戶提供業(yè)務(wù)咨詢及簡單業(yè)務(wù)辦理的服務(wù)。
AI數(shù)字人技術(shù)為用戶提供了全新基于視覺通道的人機交互界面。該界面通過融合CG技術(shù)、語音技術(shù)及自然語言處理等多種技術(shù),為使用者打造出類似人與人交互的操作體驗。企業(yè)通過切換數(shù)字人背后的知識庫或AI模塊使其可以支撐不同的業(yè)務(wù)場景,如在媒體播報領(lǐng)域、個人助理領(lǐng)域及業(yè)務(wù)咨詢等領(lǐng)域數(shù)字人技術(shù)均有不俗的表現(xiàn)。
虛擬主播云平臺
相芯科技公司基于與阿里云的合作在很多領(lǐng)域開始進行AI數(shù)字人技術(shù)的應(yīng)用落地。相芯科技的AI數(shù)字人技術(shù),只需要輸入一段文字,就可以全自動地合成整個人的說話,包含動作、形態(tài)、情緒的視頻。公司搭建的虛擬主播云平臺如下圖所示。在平臺編輯界面中,用戶可以對虛擬人物的角色、對話內(nèi)容腳本及相關(guān)人物動作進行選擇,并通過阿里云的云服務(wù)器進行渲染和視頻合成,就能快速生成數(shù)字人的視頻,用戶可以自行將視頻下載,并進行分發(fā)。
虛擬主播及虛擬機器人
下圖所示為公司虛擬主持人模塊的架構(gòu)。公司將相關(guān)腳本輸入,通過TTS語音技術(shù)完成人物語音的合成,在STA(Speech-to-Animation)模塊中進行動畫及視頻合成,最后生成相關(guān)的虛擬視頻。企業(yè)同時對互動助手、虛擬機器人技術(shù)架構(gòu)進行了開發(fā)。在數(shù)據(jù)輸入部分,系統(tǒng)通過接入自然語言處理等模塊完成了機器人問答系統(tǒng)的搭建,以此支持數(shù)字人與用戶的實時交互功能。
語音技術(shù)合作伙伴—阿里云TTS
STA業(yè)務(wù)打造的虛擬主播與虛擬客服,都離不開語音合成技術(shù)TTS的支持。企業(yè)對市面上提供TTS服務(wù)的公司進行調(diào)研對比后,選擇了阿里云TTS作為合作伙伴。企業(yè)通過與阿里云TTS的合作,為數(shù)字人角色搭建了真實自然的語音模型,并陸續(xù)在進行更深層次的技術(shù)合作。
STA算法流程
下圖所示為STA(Speech-to-Animation)算法流程示意圖。企業(yè)將文本數(shù)據(jù)與語音數(shù)據(jù)共同作為算法數(shù)據(jù)導(dǎo)入算法模塊中,算法將會對語音數(shù)據(jù)中的情緒及語速等因素進行分析,以此合成出數(shù)字人說話的口型、發(fā)音及與用戶的對話情景等數(shù)據(jù),通過分析出的數(shù)據(jù)驅(qū)動數(shù)字人表現(xiàn)出自然生動的畫面。
圖形合成模塊
企業(yè)經(jīng)過一系列探索,目前已擁有了完備的數(shù)字人表現(xiàn)及部署方案。從3D卡通形象到高精度虛擬人形象企業(yè)均可提供良好的塑造技術(shù)支持。企業(yè)可以使用不同的虛擬人物完成不同業(yè)務(wù)場景下對虛擬人物的需求,包括且不限于支持智能手機、終端及大屏上數(shù)字人的問答業(yè)務(wù)、支持云渲染實現(xiàn)高質(zhì)量視頻合成等業(yè)務(wù)場景。
照片級人像合成技術(shù)
企業(yè)由SIGGRAPH大會論文成果設(shè)計實現(xiàn)的照片級人像合成技術(shù)效果如下圖所示。使用者在左側(cè)輸入表情時,右側(cè)的目標(biāo)照片上的人物可以實時做出惟妙惟肖的表情。該技術(shù)能非常細膩地合成人物臉上每處細節(jié)(如法令紋、牙齒等),使觀看者感受到照片像現(xiàn)實人物一樣在做動作。
該技術(shù)背后為企業(yè)基于生成對抗網(wǎng)絡(luò)所開發(fā)的技術(shù)架構(gòu)。由于生成對抗網(wǎng)絡(luò)技術(shù)最大的難點在于它生成的結(jié)果的不可控性,考慮到數(shù)字人場景需要極其精準(zhǔn)掌控人物的發(fā)音狀態(tài)表現(xiàn),開發(fā)團隊創(chuàng)新性的構(gòu)建了兩個階段的人像合成算法架構(gòu)。算法首先通過三維的數(shù)據(jù)重建與數(shù)據(jù)理解將圖像變形到開發(fā)團隊預(yù)設(shè)的表情上,之后算法通過生成對抗網(wǎng)絡(luò)技術(shù)對虛擬人物在細節(jié)上進行修補與還原。在這種方案下,生成對抗網(wǎng)絡(luò)本身可以專注于人物細節(jié)的修補,免去了其處理圖片形變與位移所需的精力,使算法可以良好的控制虛擬人物表情變化,真實的還原人物細節(jié)。
下圖為企業(yè)照片級人像合成技術(shù)的效果。左上方在人在做一些表情,來控制其他照片,使這五張照片也可以合成出非常真實的表情,包括牙齒、嘴巴內(nèi)部、法令紋等細節(jié)都能合成得非常真實,很難判別出真假。
虛擬主播案例
目前AI數(shù)字人技術(shù)不僅可以在高精度虛擬人物合成場景中進行應(yīng)用,同時也多樣型的數(shù)字人解決方案開始在各行各業(yè)的業(yè)務(wù)場景中落地提供相應(yīng)服務(wù)。下圖所示為企業(yè)基于AI數(shù)字人技術(shù)設(shè)計開發(fā)的虛擬主播應(yīng)用案例。對于報社、電視臺及媒體等業(yè)務(wù)方而言,虛擬主播技術(shù)很好的滿足了業(yè)務(wù)方在自動化視頻生成、媒體內(nèi)容生成方面的業(yè)務(wù)需求,成為了融媒體時代新聞媒體的傳媒利器。同時虛擬主播技術(shù)也被應(yīng)用于新媒體之中,業(yè)務(wù)方通過打造公司專屬的虛擬主播形象既可以實現(xiàn)與觀眾的情感互動也保證了公司本身的傳媒影響力,避免了出現(xiàn)以往公眾影響力集中在新聞主播身上的情況。
虛擬機器人案例
企業(yè)在具有將強的互動性虛擬機器人和互動助手在技術(shù)上也在進行相關(guān)探索。通過STA技術(shù),企業(yè)將虛擬人物與問答系統(tǒng)整合。在用戶使用系統(tǒng)進行交互時,系統(tǒng)將展現(xiàn)出更為具象的虛擬人物進行交流互動。比如公司通過與汽車企業(yè)合作研制的車機虛擬助手目前已實現(xiàn)量產(chǎn)車上的部署。公司同時積極探索數(shù)字人技術(shù)在線下場景中的應(yīng)用,通過在銀行大廳、地鐵售票處、醫(yī)院、法庭及企業(yè)展廳中部署AI數(shù)字人系統(tǒng)。同時公司可以實現(xiàn)讓智能音箱升級為具有具像化形象的智能系統(tǒng)。公司為不同業(yè)務(wù)的用戶群體提供了更為高效便利的咨詢服務(wù)及良好的交互體驗。
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應(yīng)欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。