9月19日,百度地圖發(fā)布內(nèi)部代號為“百雀靈”的“語音定制功能”,這是全球首個地圖語音定制產(chǎn)品,用戶只需在百度地圖App上錄制20句話、20分鐘左右即可生成個人完整語音包,接著在使用導航和景區(qū)導覽等地圖功能時,就能使用定制語音。
2018年,地圖掀起了一股明星語音包的潮流,當時我曾給國內(nèi)幾個地圖App提過產(chǎn)品建議,即讓每個用戶可以定制自己的語音包,比如愛人的,戀人的,孩子的,不只是我想到了這個功能,很多人都曾有過這樣的提議,聽上去很酷。
當時地圖App都反饋,這個功能建議很好,但技術層面很難實現(xiàn),制作明星的語音包要在錄音棚錄制大量的語音素材,再花幾個月時間合成,這樣的長周期合成模式很難被用于個性化定制。
一年多后,百度“語音定制”功能上線了。體驗究竟如何呢?
體驗遠超預期
作為一名單身汪,我現(xiàn)在還找不到可以錄制語音素材的心愛的人,所以,我選擇自己給自己錄制語音包(好慘的感覺)。
進入百度地圖用“小度小度”啟動語音助理說“錄制我的語音”或者直接點擊“語音定制”按鈕就可以進入錄制界面,第一步需要選擇自己是男生還是女生,以及男童聲還是女童聲,為什么要區(qū)別身份呢?按照百度地圖事業(yè)部總經(jīng)理李瑩的說法是:“兒童音錄制十分困難,比如孩子有時候發(fā)音不標準、斷句不準確,甚至可能有些聽起來不像普通話?!边@需要用對應的技術去針對性解決。
接著就可以選擇按照百度地圖的推薦文本、卡通文本、電影臺詞之類的進行錄音了,一共需要錄制20個句子,擔心用戶不知道怎么正確地拼讀百度地圖還提供了“自動領讀”功能,非常貼心。錄音的過程要注意一下:一定要在相對安靜的環(huán)境,避免雜音干擾百度地圖的判斷,同時注意距離嘴巴跟手機的距離、語速語調(diào)、聲音大小等等。只有給百度地圖更好的素材,它才能更好地模擬你。
幾分鐘就錄制完成了,每一段話效果如何百度地圖會有提示,你可以再重錄。
最后可以給自己的語音包設置一個封面和名稱,上傳,等待百度地圖云端渲染生成,這大概需要15分鐘。
在等待的過程中,我順便看了下,百度地圖語音定制還有一個分享機制,你不只是可以使用華晨宇、秦嵐等明星以及各地交通臺主持人的定制語音包,也可以看到一些用戶的名人模仿語音包、家鄉(xiāng)話語音包、原生語音包或者童聲語音包。
我的語音包生成后,自己聽了下覺得有點陌生,分享給朋友,朋友聽了說:這就是你的聲音,誰讓你普通話這個水平呢……
將語音包下載,導航什么的就可以直接用了。
我也可以將自己的語音包發(fā)給朋友,或者分享給所有人。我的語音發(fā)布后,短時間內(nèi)就有幾十個人用(完全超出我預料),截至目前,百度地圖用戶主動分享的語音包正在快速增加中。
具備刷屏氣質(zhì)
體驗完了,我對百度地圖語音定制功能有如下結論:
1、具備很高的可用性,用之前我還擔心聲音可能會走樣,體驗了發(fā)現(xiàn)確實可以模擬每個人的聲音;
2、流程簡單,門檻很低,快速生成,小朋友都可以輕松錄制自己的語音包;
3、具有很強的社交潛力。很少有人像我這樣錄制了自己用,一般使用場景是用家人、愛人、情人聲音來定制,或者自己定制了發(fā)給他們。百度地圖引入了名人模仿秀等運營機制,用戶也可以主動將語音包公開分享給所有人,這些都會增加這一功能的社交屬性。
我認為,百度地圖“語音定制”具備刷屏氣質(zhì),即將到來的國慶長假是出行高峰期,百度地圖在此時此刻推出這一功能,顯然是希望抓住這個出行服務的黃金營銷節(jié)點,到時候更多人可能會玩兒語音包,更多人會因為語音包選擇百度地圖。
跟很多刷屏App不同,“語音定制”不會是一個曇花一現(xiàn)的功能,這個功能可能比明星語音包更有爆發(fā)力。明星語音包圈粉,具有很強的營銷價值,然而其定制成本相對較高,支持明星有限,幾年下來,百度地圖和高德地圖的明星語音包數(shù)量都只有十來個,用戶卻又眾口難調(diào)。百度地圖的語音定制功能,讓用戶隨心所欲地定制想要的人的聲音,這是有剛需的。
在7月底的GMIC上,李瑩曾透露,百度地圖智能語音助手用戶數(shù)累計突破2.5 億,一年增長1.5 倍,這表明,用戶通過語音與地圖交互的習慣已在百度地圖養(yǎng)成,不難理解,用戶在開車時雙手不便,語音是最安全、最便捷的操作方式。
語音是地圖服務的標配,用誰的語音?可以有很多文章做。高德地圖率先做了名人語音,前段時間做了魔獸世界主題的語音,走IP定制路線。百度地圖在“人有我有”的基礎上,推出“語音定制”,做到了“人無我有”,高德地圖是否會跟進尚未可知,但可預見,在一個時間窗口,這個功能會成為百度地圖的殺手锏。
有人可能會聯(lián)想到前段時間爆發(fā)的ZAO。ZAO基于用戶人臉合成視頻刷屏,引發(fā)了人們對隱私的擔憂,比如人臉數(shù)據(jù)會不會被泄露?有前車之鑒,百度地圖在隱私上充分做到讓用戶放心,其遵循業(yè)界最標準、最成熟的安全規(guī)范,采取高級別的信息安全保護措施,最大程度保障每個用戶的安全隱私。用戶分享自己的語音包,也是基于主動授權。如果不分享語音包不會被用于任何其他地方,放心地用吧。
長板效應凸顯
百度地圖率先實現(xiàn)“語音定制”功能,有內(nèi)在的邏輯。
語音對地圖服務很重要,但是車載環(huán)境噪音等問題明顯、用戶指令復雜度很高,因此要實現(xiàn)真正的智能語音交互并不容易,這需要極強的語音識別、自然語言處理、語義理解等技術,每一種技術實現(xiàn)都有很大的挑戰(zhàn)。
背靠百度的AI技術優(yōu)勢,早在2017 年,百度地圖就結合AI和語音、語義技術,實現(xiàn)了語音交互覆蓋用戶操控全流程,2018 年正式確定了“新一代人工智能地圖”的定位,強化更準確、更豐富、更易用三大特點。
百度智能語音技術具有“聽清、聽懂、滿足”三大特性,實現(xiàn)了與導航的深度結合。在2018百度AI開發(fā)者大會上,百度CTO王海峰對百度地圖說:“我要從三里屯的團結湖地鐵站出發(fā)路過望京的家樂福然后再去南鑼鼓巷最后到我家,我要紅綠燈少的不堵車的最快的路線,你幫我路線規(guī)劃一下吧。”百度地圖語音助手精準識別、理解了長達60多字的服務請求,自然流暢地提供了導航服務,這體現(xiàn)出兩點,一個是百度語音技術優(yōu)勢,二個是百度語音技術與地圖實現(xiàn)了很好的整合。
這一次推出的“語音定制”,技術難度同樣非常大。
語音的合成看上去只有幾步驟,二十分鐘的事情,實際上卻是非常非常難的。傳統(tǒng)明星語音包定制需要在大庫基礎之上錄制1000到2000句語音。百度語音定制只能通過20個句子,來理解用戶的音色、風格、情緒、語調(diào)、語速、習慣——要用戶錄制太多、花時間太多,門檻高了就沒意義了。
傳統(tǒng)明星語音定制要在專業(yè)錄音棚錄制幾周時間,現(xiàn)在用戶各自的環(huán)境變得非常復雜,噪音是免不了的問題,如何降噪,是一個難題。
原先合成明星語音包是一個龐大的團隊針對一個人來做定制,現(xiàn)在是將這個流程變得標準化、大眾化和自動化,生產(chǎn)周期則從原先的數(shù)月壓縮到數(shù)分鐘,技術挑戰(zhàn)可想而知。
兒童錄音是一個重要的場景,然而兒童往往會面臨發(fā)音不清晰、停頓不規(guī)律、普通話不標準等問題,比成人的錄音更難處理。
百度地圖基于百度大腦的AI能力,成功克服了這些難題,百度語音首席架構師賈磊在發(fā)布會現(xiàn)場進行了解釋:“百度地圖語音定制功能基于百度獨創(chuàng)的說話人韻律遷移技術Meitron,其特點主要體現(xiàn)在發(fā)音人音色轉(zhuǎn)換,多情感朗讀和韻律風格遷移三個方面,從而讓個性化語音合成的定制門檻大大降低。”
就是說,百度地圖語音定制功能不是從0到1的技術,而是百度積累多年的語音技術,現(xiàn)在被應用到地圖這一黃金場景,厚積薄發(fā)。
ZAO當時刷屏不久,服務器就宕機了,因為視頻合成要大量的服務器計算資源,百度地圖可以在15分鐘制作視頻,全國很多網(wǎng)友同步在玩卻不宕機,正是基于百度“春晚不宕機”的技術實力,計算力不存在任何瓶頸。
每個人都能快速定制自己的語音包,AI技術的成熟度已經(jīng)遠超我們預期,百度地圖率先上線“語音定制”功能,即是得益于百度的AI技術優(yōu)勢,同時也與百度地圖2017年就開始布局的AI戰(zhàn)略有關系,李瑩說:“智能語音交互+地圖服務已成為百度地圖的殺手級功能?!苯裉煸贏I語音技術成熟后,百度地圖推出“語音定制”是水到渠成的??梢灶A見,未來百度地圖在聲音這件事兒上,還會玩出更多花樣來,讓地圖應用充滿更多可能。
不只是語音交互技術,百度地圖很多功能后面都有AI 技術,比如百度地圖首創(chuàng)智能定位功能,能夠在GPS 信號極弱的場景下,為用戶提供持續(xù)的定位導航服務,用戶在高架、隧道等場景中也可正常使用;再比如百度地圖在業(yè)內(nèi)首創(chuàng)的精準規(guī)劃功能,實現(xiàn)了上帝視角的全局路線導航規(guī)劃,幫助用戶提升出行效率。
百度地圖不只是在C 端將AI 技術用來優(yōu)化產(chǎn)品體驗和創(chuàng)新產(chǎn)品功能,也將AI 技術用于地圖數(shù)據(jù)生產(chǎn)中,包括數(shù)據(jù)采集、標注、上線、更新,在7 月的百度AI 開發(fā)者大會上,百度地圖宣布80%數(shù)據(jù)采集環(huán)節(jié)實現(xiàn)了AI 化,成為業(yè)內(nèi)AI 化水平最高、搭載的AI 技術最強最豐富的地圖廠商,不只是大幅降低了地圖成本,提高了數(shù)據(jù)生產(chǎn)效率,也讓用戶體驗更準確、更豐富和更真實。
作為“新一代人工智能地圖”,在即將到來的5G時代,伴隨著IoT、邊緣計算、智能駕駛等技術和應用的普及,百度地圖的AI長板效應將得到進一步釋放,真正意義上成為基礎設施。
“語音定制”功能的上線,是一個里程碑。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 華為研發(fā)中心入駐上海青浦致小鎮(zhèn)房租大漲,帶動周邊租房市場熱潮
- 華為員工涌入蘇滬兩地,房東狂歡:租金幾近翻倍,跨省租房成新常態(tài)
- 制造業(yè)巨頭空客計劃裁員2500人,應對航天業(yè)務虧損與供應鏈挑戰(zhàn)
- 科技創(chuàng)新引領產(chǎn)業(yè)發(fā)展:江陰市與清華大學攜手推進重大科技項目
- 美國或再升級出口管制:考慮限制AI芯片對中東出口
- 劉強東章澤天報案:京東發(fā)言人證實夫婦倆遭有組織造謠,警方已介入
- 東方甄選擬15億出售教育業(yè)務
- 虧764億上熱搜 蔚來裁員10%,銷量跌出前三
- IBM設立5億元AI創(chuàng)投基金
- 聯(lián)想發(fā)布 ThinkStation P8工作站
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。