還記得科幻片《鋼鐵俠》中,托尼·史塔克的AI管家賈維斯嗎?只要托尼一聲呼喚,無論語速快慢,聲音大小,老賈的程序都能被迅速激活,完美地執(zhí)行托尼的各類語音指令。賈維斯這樣的語音識別與交互方式,未來終將出現(xiàn)在日常生活中。
1月16日,在百度輸入法“AI·新輸入 全感官輸入2.0”發(fā)布會上,百度輸入法AI探索版正式亮相。作為百度AI技術的橋頭堡,百度輸入法正引領一場全感官輸入的革命,而過去在科幻片中出現(xiàn)的情景,如今都也正在變?yōu)楝F(xiàn)實。
百度高級副總裁王海峰博士表示,“目前輸入法產品主要應用于手機端,未來各種智能設備都將需要輸入、需要跟用戶交互,輸入法將發(fā)揮巨大作用?!?/p>
AI重塑各個行業(yè),輸入法正迎來重大變革
誠如王海峰所言,輸入法本質上是一種人與機器交流的媒介??v觀歷史,隨著技術的發(fā)展,人與機器交流的媒介和形式也在不斷變化升級。在過去75年里,每10年就有一次人機交互的重大革新,人類對機器的操作,經歷了從物理手柄按鍵,到物理鍵盤鼠標,再到觸摸屏的過程,而現(xiàn)在終于輪到了語音。
這種由技術升級帶來的交互方式改變,也正在引領著輸入法行業(yè)發(fā)生急劇的變化。隨著5G、云計算、大數(shù)據、人工智能等新技術的不斷升級,手機輸入法行業(yè)無論在輸入方式、應用場景、行業(yè)生態(tài)方面都正在發(fā)生巨大變革。
從誕生之初到經過若干年發(fā)展至現(xiàn)在,輸入法對用戶的作用已經遠不止將用戶所思所想轉化成為文字那樣簡單。借助AI技術的賦能,輸入法如今不僅能夠讀懂人類的語言,還能夠進一步識別人類的明令并做出相應的反饋,語音、表情、動作都將可以成為輸入方式。
輸入法能夠逐步實現(xiàn)全感官輸入,背后則歸功于強大的大數(shù)據技術和機器的深度學習能力。借助對用戶的輸入習慣、聊天對象、對話情景等進行特征分析,輸入法可以逐步深入理解用戶的意圖,真正做到懂每一個用戶。語音輸入則是這種全新交互方式的最直觀體現(xiàn),作為人類交流、人機交互最自然的方式,它同樣也被認為是開啟人工智能時代的起點。
作為一種新穎而又十分重要的輸入方式,語音輸入也正隨著語音識別效率的逐步提升,不斷提高用戶滲透率、提升用戶體驗,使用戶的表達更加智能與交互。事實上,如果單看活躍用戶數(shù),誰是中國輸入法市場老大可能還存在爭議,但單從語音輸入量這個維度來看,百度輸入法早已成為毫無爭議的市場第一,其語音輸入請求量遠超競爭對手搜狗輸入法,而百度輸入法實現(xiàn)質的突破背后則是語音識別技術。
站在變革的潮頭,百度輸入法為何能夠先「聲」奪人?
從語音輸入到全感官輸入,輸入法的技術門檻變得越來越高,AI技術正在成為其核心驅動力。在發(fā)布會上,百度輸入法還宣布,截至2018年底,百度輸入法月活躍人數(shù)已達5億,語音日均請求量峰值突破5.5億,AR表情使用次數(shù)超過1億,百度輸入法的厚積薄發(fā)并不是偶然。
1、多年的AI技術積累
作為百度AI技術率先落地的產品之一,百度輸入法凝聚了百度深耕多年的語音、圖像、NLP和知識圖譜等AI能力——尤其是AI語音技術。早在 2012 年,百度就率先上線了基于 DNN 的語音識別模型,此后隨著技術的不斷迭代,每一年在語音識別技術上都有所進展。
去年也是在輸入法發(fā)布會上,百度語音發(fā)布的Deep Peak 2模型突破了沿用十幾年的傳統(tǒng)模型,進而得以更充分地發(fā)揮神經網絡模型的參數(shù)優(yōu)勢,大幅提升中英文、多種口音、多種風格(如朗讀、聊天、輕聲)混合輸入的識別準確率,聊天場景下的相對正確率較行業(yè)領先水平提升20%。
時隔一年,百度語音技術團隊再次實現(xiàn)重大技術創(chuàng)新。在今年的發(fā)布會上,百度輸入法發(fā)布了流式截斷多層注意力建模(SMLTA),這是中文在線語音識別歷史上的兩個重大突破:世界上首次實現(xiàn)了局部注意力建模識別精度超過全局注意力模型;世界上第一次大規(guī)模部署在線語音交互注意力模型。這一技術能夠解決傳統(tǒng)Attention模型在識別中的時延性,以及因此導致的無法進行大規(guī)模在線語音實時交互的問題,并將在線語音識別精度提升了15%,超越行業(yè)最高水平15%。
2、對用戶體驗的精益求精
除了技術積累外,百度輸入法在用戶體驗上也是精益求精,這種對用戶體驗的打磨,讓昔日功能單一的手機輸入法,具備了“語音助手”,“效率工具”和“聊天伴侶”等多重身份。
百度輸入法不僅對用戶輸入場景進行針對性的優(yōu)化,比如無論會場還是課堂,百度輸入法都可以通過輕聲識別能力降低語音輸入的尷尬;在“多人模式”場景下,借助百度輸入法的聲紋識別技術可以自動區(qū)分發(fā)言人,大幅降低工作者后期處理的成本。
除此之外,百度輸入法還在探索更多輔助性功,進一步提升自己的產品吸引力,比如除了給予「語音識別」這個 AI 單點能力,百度輸入法的「AR 表情」還基于用戶的動作、表情捕捉信息,而這也為文字輸入形式的人機交互提供了更多可能性。不難發(fā)現(xiàn),正式百度在輸入領域對用戶需求全方位了解,讓百度輸入法借此實現(xiàn)快速爆發(fā)式的增長。
3、百度輸入法不僅僅是工具
人工智能時代輸入法會從工具走向服務,除了滿足文字輸入需求,還需要增加日常搜索等多種服務,提升用戶黏性。這意味著輸入法需要形成打通語音交互與服務,形成語音到服務的閉環(huán),而這正是百度最擅長的地方。
比如,百度推出的語音速記功能,這可以幫助記者進行實時記錄,從而提升了記者的工作效率,彌補了傳統(tǒng)手記在速度上的滯后也避免了事后需要聽打來整理錄音的不便。再比如,游戲主播在直播過程中,也可利用百度輸入游戲鍵盤開黑。不僅有極簡語音功能可令其節(jié)省打字時間,更有諸如快捷短語、和諧轉換等功能可為主播們進行定制化服務,豐富其游戲體驗感 。
如今在很多場景中,百度輸入法都能發(fā)揮著重要的作用。百度中文輸入法負責人蔡玉婷表示,相較2016年,百度輸入法日均語音請求量增長了8倍,語音輸入法的場景也從聊天和搜索拓展到游戲、娛樂、購物等眾多場景。百度的AI技術正深入落地,其所加持的各種功能讓百度輸入法已不再僅僅是“輸入工具”。
輸入法正在成為百度AI技術落地的新樣本
輸入法如今對百度的重要性正越來越重要。在過去幾個季度的財報中,百度輸入法也連續(xù)被提及,語音輸入請求量更是被百度歸納進AI業(yè)務進展中。
語音輸入不僅讓百度輸入法實現(xiàn)了爆發(fā)式增長,更可以幫助百度獲取更多的語料資料,這反過來又能反哺百度語音識別技術的進化。從長遠來看,作為一種高頻使用場景,輸入法可以快速的普及語音輸入的人機交互方式,借助AI技術的賦能實現(xiàn)更精準的需求識別,最終為智能語音助理找到突破口。
事實上,百度最重要的人機對話系統(tǒng)DuerOS和百度輸入法的發(fā)展可以說一脈相承,同樣解決的都是交互問題,只不過一個的終端是智能手機,另一個終端則是所以可搭載對話式操作系統(tǒng)的智能硬件。百度輸入法的成功,無疑能夠給DuerOS起到很好的反哺作用。
百度輸入法的成功,實際上也是百度AI技術落地的樣本。眾多AI技術的加持,即讓百度輸入法得以實現(xiàn)彎道超車,也幫助百度開啟了人工智能新時代大門的“鑰匙”。百度在語音、圖像、NLP和知識圖譜等多個領域的AI技術都在百度輸入法上一一呈現(xiàn),這何嘗又不是百度AI賦能傳統(tǒng)應用的一個案例。
百度在不斷發(fā)展AI技術的同時,非常注重技術落地于實踐,并且讓AI與生活息息相關,百度輸入法也在這個過程中不斷完成自我進化,并引領未來進一步革新人機交互模式,完全開啟全感官輸入時代的日子,或許指日可待。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 華為研發(fā)中心入駐上海青浦致小鎮(zhèn)房租大漲,帶動周邊租房市場熱潮
- 華為員工涌入蘇滬兩地,房東狂歡:租金幾近翻倍,跨省租房成新常態(tài)
- 制造業(yè)巨頭空客計劃裁員2500人,應對航天業(yè)務虧損與供應鏈挑戰(zhàn)
- 科技創(chuàng)新引領產業(yè)發(fā)展:江陰市與清華大學攜手推進重大科技項目
- 美國或再升級出口管制:考慮限制AI芯片對中東出口
- 劉強東章澤天報案:京東發(fā)言人證實夫婦倆遭有組織造謠,警方已介入
- 東方甄選擬15億出售教育業(yè)務
- 虧764億上熱搜 蔚來裁員10%,銷量跌出前三
- IBM設立5億元AI創(chuàng)投基金
- 聯(lián)想發(fā)布 ThinkStation P8工作站
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。