ICASSP 2019將于2019年5月12日-17日在英國(guó)布萊頓拉開(kāi)序幕,作為國(guó)內(nèi)AI語(yǔ)音賽道獨(dú)角獸公司的出門(mén)問(wèn)問(wèn)Mobvoi AI Lab有三篇論文已經(jīng)被ICASSP 2019接收。ICASSP 全稱(chēng) International Conference on Acoustics, Speech and Signal Processing(國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議),是由 IEEE 主辦的全世界最大的,也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)學(xué)術(shù)年會(huì)。
出門(mén)問(wèn)問(wèn)是一家以語(yǔ)音交互和軟硬結(jié)合為核心的人工智能公司。2012年創(chuàng)立后,出門(mén)問(wèn)問(wèn)始終以定義下一代人機(jī)交互方式為使命,堅(jiān)持做AI應(yīng)用的探索,希望用“AI喚醒生活”,讓每一個(gè)人都能夠感受到,以語(yǔ)音交互為代表的AI科技可以給每個(gè)人帶來(lái)的美好與便利。
技術(shù)方面,出門(mén)問(wèn)問(wèn)擁有全套自主研發(fā)的智能語(yǔ)音交互八大關(guān)鍵核心技術(shù),掌握600多項(xiàng)技術(shù)專(zhuān)利。從1.前端聲音信號(hào)處理,到2.熱詞喚醒,到3.語(yǔ)音識(shí)別,到4.自然語(yǔ)言理解和5.對(duì)話管理,到6.垂直智能搜索和7.推送,到8.語(yǔ)音合成,在這一整套“聽(tīng)到-識(shí)別-處理-輸出”的人機(jī)交互過(guò)程中,出門(mén)問(wèn)問(wèn)可以自主提供所有技術(shù),為需要語(yǔ)音交互的場(chǎng)景提供一整套端到端人機(jī)交互解決方案。
出門(mén)問(wèn)問(wèn)始終堅(jiān)持產(chǎn)學(xué)研高度一體化,在語(yǔ)音交互技術(shù)上一直深入探索,由IEEE院士(IEEE Fellow)黃美玉博士領(lǐng)導(dǎo)的出門(mén)問(wèn)問(wèn)Mobvoi AI Lab,在此次ICASSP 2019提交的論文概述如下。
【1】信任正則化的知識(shí)蒸餾在遞歸神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型上的應(yīng)用
Knowledge Distillation for Recurrent Neural Network Language Modeling with Trust Regularization
Yangyang Shi, Mei-Yuh Hwang, Xin Lei,
Mobvoi AI Lab,Seattle, USA
Haoyu Sheng
Williams College
基于遞歸神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型較于傳統(tǒng)的n-gram語(yǔ)言模型,有顯著的性能提升,已經(jīng)成為語(yǔ)言模型的主流模型,在很多云端應(yīng)用中得到廣泛的青睞。然而遞歸神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在實(shí)際應(yīng)用中需要占據(jù)大量的內(nèi)存容量以及計(jì)算資源。在很多移動(dòng)終端,由于有限的內(nèi)存以及功耗,極大的限制了遞歸神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的應(yīng)用。最近知識(shí)蒸餾的方法被用于壓縮遞歸神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型并減少它在終端裝置上的計(jì)算量。這一篇文章也同樣采用了知識(shí)蒸餾的方法,并用信任正則化的方法對(duì)知識(shí)蒸餾方法做出了改進(jìn)。文章的實(shí)驗(yàn)表明這種信任正則化的知識(shí)蒸餾方法,可以把 Penn Treebank 數(shù)據(jù)集的遞歸神經(jīng)網(wǎng)絡(luò)的模型大小降到原有大小的33%,而仍然得到當(dāng)前學(xué)術(shù)界最好的結(jié)果。在華爾街日?qǐng)?bào)語(yǔ)音識(shí)別的任務(wù)中,這篇文章的實(shí)驗(yàn)表明,信任正則化的知識(shí)蒸餾方法可以將遞歸神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的大小降到原有大小的18.5%,并且仍然保持和原有模型一樣的效果。
【2】基于高階LSTM-CTC的端到端語(yǔ)音識(shí)別
End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model
Yangyang Shi,Mei-Yuh Hwang,Xin Lei
Mobvoi AI Lab, Seattle, USA
基于LSTM-CTC的端到端語(yǔ)音模型, 由于其簡(jiǎn)單的訓(xùn)練過(guò)程以及高效的解碼過(guò)程,最近在語(yǔ)音識(shí)別領(lǐng)域得到廣泛的關(guān)注和應(yīng)用。在傳統(tǒng)的LSTM-CTC模型中,一個(gè)瓶頸投影矩陣將LSTM隱層的輸出向量投影到CTC的輸入向量。研究表明增強(qiáng)這個(gè)瓶頸投影矩陣的階數(shù)可以提高LSTM模型的表達(dá)能力。這篇文章提出用一個(gè)高階的投影層替代傳統(tǒng)的投影矩陣。高階投影層以LSTM的隱層的輸出向量作為輸入,經(jīng)過(guò)一系列的投影矩陣以及非線性函數(shù),這個(gè)高階投影層的輸出是一系列向量的線性組合。在高階投影層中,這些線性組合的權(quán)重也是由模型根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到。文章的實(shí)驗(yàn)表明在語(yǔ)音領(lǐng)域普遍采用的WSJ數(shù)據(jù)集以及Librispeech數(shù)據(jù)集合上,較于傳統(tǒng)的LSTM-CTC的端到端語(yǔ)音模型,高階的LSTM-CTC模型可以帶來(lái)3%-10%相對(duì)詞錯(cuò)誤率的下降。
【3】使用對(duì)抗性樣例提升基于注意力機(jī)制端到端的神經(jīng)網(wǎng)絡(luò)關(guān)鍵字檢出模型
Adversarial Examples for Improving End-to-end Attention-based Small-Footprint Keyword Spotting
Xiong Wang, Sining Sun, Changhao Shan, Jingyong Hou, Lei Xie,
School of Computer Science, Northwestern Polytechnical University, Xi’an, China
Shen Li, Xin Lei
Mobvoi AI Lab, Beijing, China
本文提出使用對(duì)抗性樣例來(lái)提升關(guān)鍵字檢出(Keyword spotting,KWS)的性能。 對(duì)抗性樣例近年來(lái)在深度學(xué)習(xí)領(lǐng)域是一個(gè)研究熱點(diǎn),它是指在原來(lái)正確分類(lèi)的樣例上加一個(gè)輕微的擾動(dòng)后即被分類(lèi)器錯(cuò)誤分類(lèi)的樣例。 在KWS任務(wù)中,將系統(tǒng)誤喚醒或誤拒絕的錯(cuò)誤樣例視為對(duì)抗性樣例非常直觀而貼切競(jìng)爭(zhēng)性樣例的概念。在我們的工作中,我們首先建立了一個(gè)訓(xùn)練有素的基于注意力機(jī)制端到端的KWS模型,然后使用快速梯度符號(hào)法(FGSM)生成了對(duì)抗性的樣例,發(fā)現(xiàn)這些樣例會(huì)顯著降低KWS的性能,最后我們利用這些對(duì)抗性的樣例作為增強(qiáng)數(shù)據(jù)來(lái)一起訓(xùn)練KWS模型。最終在出門(mén)問(wèn)問(wèn)智能音響上收集的喚醒詞數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,設(shè)定閾值在每小時(shí)1.0次誤喚醒情況下,提出的方法獲得了相對(duì)44.7%的誤拒絕率的降低。
作為AI語(yǔ)音領(lǐng)頭公司,出門(mén)問(wèn)問(wèn)2018年開(kāi)始在學(xué)術(shù)頂會(huì)發(fā)表重要論文,并在麥克風(fēng)陣列噪聲消減、口語(yǔ)理解、噪聲環(huán)境下的語(yǔ)音識(shí)別、帶口音的語(yǔ)音識(shí)別中實(shí)現(xiàn)重大突破。
未來(lái),出門(mén)問(wèn)問(wèn)不僅要做人工智能技術(shù)的前鋒探索者,更要做人工智能應(yīng)用的奠基人,既保持前端技術(shù)的研發(fā)能力,同時(shí)擁有扎實(shí)的落地應(yīng)用能力,ToC通過(guò)AI可穿戴、車(chē)載、智能家居消費(fèi)級(jí)智能硬件+ToB通過(guò)AI企業(yè)服務(wù)雙輪戰(zhàn)略驅(qū)動(dòng),繼續(xù)探索,用AI喚醒更多人的生活。
- 小米召回SU7標(biāo)準(zhǔn)版車(chē)型,春運(yùn)低價(jià)票來(lái)襲,12306客服回應(yīng),你怎么看?
- 智譜管理層變動(dòng)引關(guān)注:兩名高管離職,公司未來(lái)走向成謎
- 特斯拉召回超120萬(wàn)輛汽車(chē):安全隱患不容忽視
- 小米召回SU7標(biāo)準(zhǔn)版車(chē)型:OTA升級(jí)解決,這次為何小米首度召回?
- Anthropic推出全新API:AI信息驗(yàn)證之戰(zhàn)再掀波瀾
- 未來(lái)解碼:英偉達(dá)引領(lǐng)機(jī)器人技術(shù)產(chǎn)業(yè)融合,智造新篇章
- 網(wǎng)易云下架SM娛樂(lè)版權(quán)歌曲:數(shù)百萬(wàn)用戶(hù)將受影響,版權(quán)之爭(zhēng)再起波瀾
- 百川智能全新模型Baichuan-M1:顛覆醫(yī)療循證模式,三大推理能力引領(lǐng)全場(chǎng)景深度思考
- 武漢阿里巴巴總部即將亮相,共繪數(shù)字產(chǎn)業(yè)新藍(lán)圖
- iPhone 16在禁令后苦盡甘來(lái):蘋(píng)果即將與印尼達(dá)成協(xié)議,解禁在望
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。