近日,ACM國(guó)際多媒體會(huì)議(ACM International Conference on Multimedia,ACM MM 2024)上組織的多模態(tài)與可靠性情感計(jì)算研討會(huì)MRAC 24(Multimodal, Generative and Responsible Affective Computing 2024)公布論文接收結(jié)果,社交平臺(tái)Soul App研究成果《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(基于視覺(jué)語(yǔ)言提示與模態(tài)暫退的多模態(tài)情感識(shí)別)成功入選。
作為較早思考將AI應(yīng)用于社交領(lǐng)域的平臺(tái),Soul積極推動(dòng)AI情感互動(dòng)能力的研究,目前相關(guān)技術(shù)已應(yīng)用于異世界回響、AI茍蛋、群聊派對(duì)等AI陪伴、AI輔助的創(chuàng)新場(chǎng)景。此次入選也意味著,繼其推出的AI應(yīng)用/功能得到的用戶認(rèn)可之后,Soul的底層技術(shù)能力建設(shè)和布局方向也得到了行業(yè)和學(xué)界的認(rèn)可。
近年來(lái),情感計(jì)算一直都是人工智能方向研究活躍的領(lǐng)域。在多媒體處理、分析與計(jì)算領(lǐng)域最具影響力的國(guó)際頂級(jí)會(huì)議,同時(shí)也是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的多媒體領(lǐng)域A類(lèi)國(guó)際學(xué)術(shù)會(huì)議 ——ACM(國(guó)際多媒體會(huì)議)上專(zhuān)門(mén)舉辦多模態(tài)與可靠性情感計(jì)算研討會(huì)(MRAC24),正是源于學(xué)術(shù)領(lǐng)域?qū)η楦杏?jì)算在人機(jī)交互領(lǐng)域發(fā)展、實(shí)際應(yīng)用的關(guān)注,因此吸引了眾多知名高校、學(xué)者、科技企業(yè)的目光。
不久前,人工智能領(lǐng)域頂級(jí)的國(guó)際學(xué)術(shù)會(huì)議之一國(guó)際人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence,IJCAI)上組織的多模態(tài)情感識(shí)別挑戰(zhàn)賽MER24同樣也是情感計(jì)算在當(dāng)下備受關(guān)注的一個(gè)縮影。由來(lái)自清華大學(xué)、中國(guó)科學(xué)院自動(dòng)化研究所、帝國(guó)理工學(xué)院、奧盧大學(xué)、南洋理工大學(xué)等高校的多位專(zhuān)家學(xué)者發(fā)起的MER24上,設(shè)置了SEMI(半監(jiān)督學(xué)習(xí))、NOISE(噪聲魯棒性)、OV(開(kāi)放式詞匯情緒識(shí)別)三個(gè)賽道,共有來(lái)自知名高校、科技企業(yè)等近百支隊(duì)伍參賽。其中,Soul語(yǔ)音技術(shù)團(tuán)隊(duì)?wèi){借平臺(tái)扎實(shí)的技術(shù)能力積累和創(chuàng)新技術(shù)方案,在難度最高、競(jìng)爭(zhēng)最激烈的SEMI賽道中獲得第一名。
《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》一文中核心介紹了Soul團(tuán)隊(duì)為提高情緒識(shí)別的準(zhǔn)確性和泛化性能,提出的多模態(tài)情緒識(shí)別方法。
首先,Soul提出了基于視覺(jué)語(yǔ)言提示學(xué)習(xí)的微調(diào)模型EmoVCLIP,用于基于視頻的情緒識(shí)別任務(wù)。為了提高文本模態(tài)情感識(shí)別能力,團(tuán)隊(duì)針對(duì)文本模態(tài)使用 GPT-4 打情感偽標(biāo)簽,充分利用 GPT-4 的情感關(guān)注能力,提高文本模態(tài)在情感識(shí)別的準(zhǔn)確率,為后續(xù)進(jìn)一步模態(tài)融合打下基礎(chǔ)。
此外,為了解決多模態(tài)融合中的模態(tài)依賴性問(wèn)題,團(tuán)隊(duì)采用 Modality Dropout 策略來(lái)進(jìn)行魯棒信息融合。最后,Soul使用自我訓(xùn)練策略來(lái)利用未標(biāo)記的信息。實(shí)驗(yàn)結(jié)果表明,Soul的模型在測(cè)試中上達(dá)到了90.15%的準(zhǔn)確率,在MER2024-SEMI賽道中排名第一。
MER2024-SEMI賽道比賽結(jié)果
Soul App CTO陶明表示,“在整個(gè)AI賽道上我們有兩條主線,一條主線是輔助社交,輔助人和人的雙邊關(guān)系,用AI去加強(qiáng)人的表達(dá),提升關(guān)系網(wǎng)絡(luò)建立的效率和質(zhì)量;第二條主線,是探索人機(jī)互動(dòng),我們認(rèn)為未來(lái)所有的社交形式都會(huì)發(fā)生變化,要在人機(jī)互動(dòng)這個(gè)方向探索AI情感式陪伴。”
為讓AI更好“理解”人,實(shí)現(xiàn)有情感、有溫度的人機(jī)交互,Soul持續(xù)推進(jìn)相關(guān)研究和技術(shù)積累工作,此次論文也是平臺(tái)階段性研究成果和能力的總結(jié)之一。現(xiàn)階段,Soul已積極將相關(guān)技術(shù)能力應(yīng)用于異世界回響、AI茍蛋、狼人魅影等多個(gè)社交場(chǎng)景,為用戶帶來(lái)更好的交互體驗(yàn)和陪伴感。
例如,在AI互動(dòng)場(chǎng)景“異世界回響”,擁有多模態(tài)情感互動(dòng)能力的自研大模型支持下,個(gè)性化的智能體能夠根據(jù)用戶的語(yǔ)音、文字等信息實(shí)時(shí)識(shí)別情緒,并快速給予相應(yīng)的情感反饋。據(jù)了解,團(tuán)隊(duì)目前還在探索在群聊派對(duì)、興趣群組等社交場(chǎng)景中引入情感化AI能力,輔助關(guān)系網(wǎng)絡(luò)建立,提升社交體驗(yàn)。
如今,AIGC技術(shù)已廣泛應(yīng)用于各行各業(yè),并在提效方面展現(xiàn)出了驚人的效果。但在強(qiáng)調(diào)情緒價(jià)值的社交領(lǐng)域,除了提效,AI情感互動(dòng)能力帶來(lái)的差異化體驗(yàn),或?qū)⒊蔀锳I社交方向下一階段競(jìng)爭(zhēng)的焦點(diǎn)。對(duì)Soul來(lái)說(shuō),接下來(lái),將繼續(xù)加大技術(shù)投入,持續(xù)探索AI情感互動(dòng)能力在社交場(chǎng)景的深度融合應(yīng)用,致力于構(gòu)建人機(jī)交互新場(chǎng)景的同時(shí),真正實(shí)現(xiàn)人與AI的雙向情感智能交互。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )