作者:苑維然
下面介紹如何開始一個AI業(yè)務,這是一次比較科普的演講,希望通過計算機視覺的一些案例,能帶給在座的各位EGO會員及各行業(yè)的老板一個關于AI和自己的業(yè)務結(jié)合的直觀的認識。
這里我先簡單介紹一下計算機視覺做的事情是什么,然后再給大家引申一下,在一些業(yè)務里應用這些技術(shù)的可能性。
這個圖是我今天早上臨時加上的,我覺得這樣畫應該更容易理解一些。計算機視覺的任務就是要對幾種和視覺相關的媒體做一些信息處理,包括圖片、視頻以及深度視頻。
通過這些媒體我們得到的對象包括人臉、人體、車以及其他,這里其他對象的范圍比較廣泛,比如說寵物、食品、普通物體分類等等,但是它的應用范圍應該遠不如前三者。
得到了這些對象的圖像信息之后,我們要做什么任務呢?總結(jié)一下,比較廣泛應用的有兩種任務,一是結(jié)構(gòu)化,二是圖搜。
結(jié)構(gòu)化是指這個對象確切可描述的信息。比如一張人臉圖片的結(jié)構(gòu)化信息包括人的性別、年齡、表情類別,以及戴不戴眼鏡、口罩、帽子等信息;人體的結(jié)構(gòu)化包括人的上身下身的衣著特點等;車輛的結(jié)構(gòu)化信息就比較多了,基本的有車牌、車型、年款、顏色等,另外有一些可以描述的特征信息,比如車窗內(nèi)掛件、擺件,甚至是否有劃痕等等,這些特征描述對于區(qū)分一些很像的車是非常有用的。
然后是圖搜,圖搜的信息基礎是沒有結(jié)構(gòu)化描述的,計算得到的是一個特征。我們常談到的人臉識別就是典型的圖搜應用,最典型的1:N人臉搜索就是以一張臉搜圖庫里的臉,得到和它距離很近的一些臉。人體和車也是一樣,只不過人體和車輛的特征維度相對于人臉來講少一些,這決定了人臉搜索可以在一個更大的庫中發(fā)生,人體和車輛只能在相對小的庫中搜索。
對于結(jié)構(gòu)化和圖搜這兩種任務來講,圖搜具有更廣泛的應用場景,為什么呢?得到結(jié)構(gòu)化信息之后,通常是作為數(shù)據(jù)庫索引進行搜索,但是具體應用中很難單純依賴結(jié)構(gòu)化信息得到想找的對象。比如要找一個人,很難通過具體描述這個人是長頭發(fā)、有胡須、戴眼鏡或者其他可描述的細節(jié)直接找到這個人,但是如果提供一張這個人的照片,就可以在人臉庫里很好地搜索到。車也是一樣,我們通常通過車牌來搜索一個車,但是在真正的應用場景里,這是不一定生效的。比如一些犯罪分子在辦案時往往會把車牌隱藏掉,或者干脆用一個假車牌,這時候就需要用車的特征來搜索,這樣的場景下技術(shù)帶來了真正可用的價值。
這張圖再往后,是計算的平臺或載體。
首先是云服務的應用,這在公安這類機密客戶那里是遠遠落后于商業(yè)及個人用戶的。我們?nèi)ツ杲?jīng)常做這樣的事情,就是把一堆服務器搬到用戶的機房里,比如警方或者交管局,我們留下專人運維這個機房里的服務器,我們連接客戶的視頻流,利用CPU和GPU去計算前面所所說的東西,然后把結(jié)果在它的客戶端體現(xiàn)出來,或者是推送到客戶的平臺中。
但從今年開始我們有一些新的東西受到了老客戶的青睞,對于類似于公安或交通這樣的傳統(tǒng)用戶,他們竟然也或多或少的接受云端的方案,這在以往是不可想象的,因為他們的技術(shù)和數(shù)據(jù)是非常機密的。但是現(xiàn)在一些云服務提供商針對公安、銀行這些具體的業(yè)務做了大量專用網(wǎng)絡和安全上的優(yōu)化工作,使得這個事可以發(fā)生。
另一方面就是越來越多地使用了EDGE端的計算,端到端(EDGE端到CLOUD端)已經(jīng)不再是什么秘密,一個很直接的結(jié)果就是降低了成本、提高了密度、以及廣泛的智能化。舉個例子,原來的IPC(網(wǎng)絡攝像機)都是傳視頻到后端去處理,現(xiàn)在很多專門的車輛及人臉抓拍攝像機可以在終端設備上把我們關注的對象抓拍成圖片,再把圖片傳到后端去處理,一方面是節(jié)省帶寬,原來一個Gb的帶寬只能傳輸幾十路視頻,現(xiàn)在只傳輸抓拍圖片可以做到萬路,更令人激動的是,假如抓拍設備部署在普通的超市、飯店這樣的街頭小店里,使用非常便宜和普通的家用帶寬就可以滿足要求。另外一個好處是后端服務器的計算成本極大降低,可能降低兩個數(shù)量級這樣的程度。兩個數(shù)量級大家可以想象是什么樣的情況,我們可以把一個應用做到非常便宜,可以從原來2G的業(yè)務逐漸做到2B的業(yè)務,再逐漸做到2C的業(yè)務。目前零售行業(yè)以及一些智能辦公行業(yè)已經(jīng)在嘗試這樣的業(yè)務方式,總結(jié)一下,就是我經(jīng)常在公司和客戶那里說的三個詞:低成本、高密度、智能化。這是從業(yè)務上來分析計算機視覺的一些情況。
這里邊有幾個事情我需要說明一下。第一個是深度視頻,深度視頻相關的產(chǎn)品我們在四年前就開始做,我不否認它的科技范兒,以及在一些場景里它不可替代的作用,但是到現(xiàn)在為止還是一個成本比較高的產(chǎn)品,所以它大都應用在類似于銀行加鈔、金庫、監(jiān)獄等支付能力非常強的客戶。深度視頻的作用顯而易見,通過深度數(shù)據(jù),它很容易能夠計算出人的肢體行為、行動、人和環(huán)境關系等信息,而普通二維數(shù)據(jù)很難做到。這個產(chǎn)品目前還不具備廣泛場景的擴展性,但是隨著傳感器技術(shù)的提高,事實上我們已經(jīng)看到一些這方面的成果,它也會滿足前邊提到的低成本、高密度、智能化的原則。
另一個要說明的是視頻,這就是剛才講的,逐漸會把后端視頻的處理轉(zhuǎn)移為前端抓拍之后在后端對圖片的處理,這樣降低了兩個數(shù)量級的成本之后,最大范圍地進行業(yè)務的推廣。大家可能很奇怪,之前GPU的勢頭很猛,NVidia的股價在一年時間里飆升了三倍不止。但是我想說的是 NVidia工業(yè)級別的顯卡價格和CPU這樣的市場相比是小眾和暴利的。CPU是個2C的市場,GPU也有2C的市場,但是工業(yè)級別的GPU顯卡,它的市場價格是普通顯卡的幾倍。之所以能維持高價,是因為之前少有替代品,然而我們今天看來它的優(yōu)勢越來越小。
一方面,現(xiàn)在有很多算法上的進展告訴我們,同樣的算法在CPU上也可以高度的優(yōu)化,它的成本和在GPU上可以媲美。而結(jié)合CPU服務器的穩(wěn)定性和靈活性,比如分鐘級別的彈性調(diào)度,它的實際成本還有一個數(shù)量級的優(yōu)化空間。
另一方面,它的競爭對手還包括ARM、FPGA、 Google的TPU芯片等這些日益成熟的專有計算芯片。這樣的結(jié)果告訴我們,我們以前好像做錯了,我們建立了大量的GPU集群,某個友商甚至利用它上一輪融資的千萬美金建立了一個幾千塊GPU的私有計算集群。但是大家往后看,這可能不是特別值得,我感覺一兩年內(nèi)就會發(fā)生的是,首先GPU的價格會降低到非常親民,專有計算芯片無論在服務器端還是在輕量級設備端都普及。
這個圖是一個人臉系統(tǒng)的業(yè)務模型,左邊是終端設備,是我們系統(tǒng)的數(shù)據(jù)源,基本都是抓拍設備,包括我們自己造的人臉抓拍機,以及我們自己造的人眼相機。人眼相機是可以應用于大廣場、大范圍的人臉抓拍機。另外還有抓拍服務器,對接普通的IPC,通過這個抓拍服務器可以把普通的IPC變成抓拍機一樣的形態(tài)來對接系統(tǒng)。中間系統(tǒng)上下兩個藍色的數(shù)據(jù)流,下面的數(shù)據(jù)流是實時業(yè)務流,上面是像黑白名單入庫之類的離線業(yè)務流。視頻數(shù)據(jù)由抓拍設備轉(zhuǎn)換成圖片之后會經(jīng)過人臉引擎進行處理,這個大規(guī)模的引擎包括人臉檢測、特征提取和結(jié)構(gòu)化,對于車的數(shù)據(jù)也類似地會有相應的車輛檢測和結(jié)構(gòu)化,然后經(jīng)過存儲、比對引擎和消息隊列,形成我們的一套系統(tǒng),后面對接應用的API池。上面還有一個從數(shù)據(jù)庫對接出的離線數(shù)據(jù)分析和實時數(shù)據(jù)分析系統(tǒng),它結(jié)合其他平臺的業(yè)務數(shù)據(jù),對結(jié)構(gòu)化數(shù)據(jù)和比對結(jié)果進行大數(shù)據(jù)分析,并匯集到一個多維查詢系統(tǒng)。
每個行業(yè)都有它自己不好做的地方,AI這個細分行業(yè)里最大的特點就是數(shù)據(jù)依賴。大家可能都知道AI算法基本上都是以基于學習的算法為主,簡單的講就是通過大量的數(shù)據(jù)標注之后(Data),對一個網(wǎng)絡(Network)的參數(shù)進行迭代優(yōu)化得到一個模型(Model),業(yè)務層通過這個Model進行推理計算。我這個題目叫“如何開始一個AI業(yè)務”,當你在自己的業(yè)務上考慮這個問題的時候,你要用AI解決什么問題,首先要問自己數(shù)據(jù)夠不夠,第一是量夠不夠,第二是質(zhì)量夠不夠,第三是數(shù)據(jù)的多樣性夠不夠,量和質(zhì)量比較好理解,下面講一下多樣性的問題,也就是跨域數(shù)據(jù)的難題。
多樣性
以人臉識別這個業(yè)務為例,有一些公共的人臉平臺,可以輸入一張照片和一個庫,它會給出識別結(jié)果。但是據(jù)我了解,這些通用的人臉平臺在具體業(yè)務上表現(xiàn)并令人滿意。我是非常理解他們的,為什么幾個友商都說自己是人臉識別第一的平臺,但是在具體應用時表現(xiàn)不好呢,答案是它的數(shù)據(jù)并沒有符合你使用的域。
舉個例子,一個做婚戀網(wǎng)站,它數(shù)據(jù)庫里的照片都是經(jīng)過化裝打扮的;一個社交網(wǎng)站,它的人臉頭像數(shù)據(jù)都是個性搞怪的;而我們的身份證照片,則是普通素顏的。這幾個領域里的數(shù)據(jù),領域內(nèi)是非常好用的,但是它們相互之間的交叉聯(lián)系,無論從數(shù)據(jù)獲取、標注還是得到最終應用結(jié)果,都是非常困難的。我們之前在某個邊疆省份做了一個業(yè)務,模式很簡單,就是用人臉識別跑一個黑名單,黑名單里包括公安關注的危險分子,這個名單非常大,大概有幾十萬。在最開始實施現(xiàn)場測試的時候,我們發(fā)現(xiàn)結(jié)果非常不好,準確度并沒有達到我們的期望。后來我們發(fā)現(xiàn)這個省的大多是少數(shù)民族,他們的臉跟漢族人特征差異很大,而跟西亞人或者是俄羅斯人種是更像的,而我們那時候的人臉模型,還是以漢族人為主要的樣本訓練得到的,所以帶來了很大的困難,其根本原因還是樣本數(shù)據(jù)量不足造成的。所以在我們把現(xiàn)場數(shù)據(jù)標注和重新訓練作為項目本身的過程,很快就達到了我們期望的準確度。
只有深入理解應用數(shù)據(jù)的域,才能夠得到期望的效果。另外一種情況是希望有跨域數(shù)據(jù)的應用,比如證件照和各種現(xiàn)場抓拍照的跨域,就必須專門針對跨域的問題進行交叉的標注和訓練,才能得到好的結(jié)果。跨域的成本往往取決于數(shù)據(jù)的來源,比如刷身份證并抓拍人臉的門禁,就可以很好的把證件照和抓拍照聯(lián)系起來。
另外一個與數(shù)據(jù)相關的就是如何在業(yè)務中結(jié)合標注。所謂標注,大家可以理解為人工智能里的“人工”。一個已經(jīng)使用舊數(shù)據(jù)訓練好的模型在你的領域里可能不一定適用,必須把標注的任務融入到業(yè)務里,讓它成為業(yè)務的常態(tài)。做電商一定會有個呼叫中心,做AI也一定會有個標注中心支撐我們的業(yè)務,他們就會根據(jù)我們?nèi)蝿盏闹笜巳ネ瓿蓸俗⒌娜蝿?。?jīng)過標注中心標注之后,AI模型的效果會逐漸變好。所以當你考慮這樣的業(yè)務一定要同時考慮相關的人工成本,如果領域不變的話,成本可能會逐漸降低,需要標注的數(shù)據(jù)會逐漸變少,但是可能不會消失,因為時過境遷,總會有些變化的東西。
ID,ID,ID,重要的事情說三遍,在AI業(yè)務里,我們認為能得到的最有價值的信息就是ID。我把它分成了幾種層次:
第一種就是類似于身份證這樣的ID,它不一定是身份證,但一定是長效、唯一的ID,這是最有價值的,就像你在網(wǎng)上做什么事都有記錄一樣,如果我有這個ID,而以后你在現(xiàn)實中做什么事也都有紀錄,這是很可怕的事情。
第二種就是長ID,長ID是跨域的,跨時間、跨地點、跨來源,長ID并不能知道你是張三還是李四,但是它知道這個ID之前所有的活動。我們把能夠拼接形成長ID的計算過程叫ReID,就是你很多活動我們通過算法把它們連接在一起了。
在商場里,當你進入的時候,如果獲得了你得長ID,系統(tǒng)雖然不知道你是誰,但是能瞬間調(diào)出你之前進入商店的行為,包括你在哪個柜臺前逗留時間長,你的動線軌跡,甚至可以綁定了你的結(jié)帳信息,知道你購買的記錄。對于商店的應用來講,這些數(shù)據(jù)已經(jīng)足夠了,這樣的一個長ID獲取成本低而且規(guī)避了侵犯隱私風險,一個商場顯然不可能對你的身份信息進行核實,但是它有這樣的長ID,就有足夠的想象空間做出一些營銷上的優(yōu)化。短ID,就是一個在時空上局部的ID。ID的價值從上到下是遞減的,當然獲取成本也是越來越小。ID的密度和分布也是非常重要的,就像網(wǎng)站的瀏覽記錄,得到的ID密度越高,對用戶行為了解得更透徹,這里有很多細節(jié)。包括我是只得到你在這的活動,還是說得到你非常大范圍的活動。這些就是我對ID的一個分類定義。
這里總結(jié)了一下以人臉識別或者車輛識別技術(shù)為基礎的應用,本質(zhì)上是ID的關系。所有我們需要得到的結(jié)果都是這幾個ID的關系,車輛、模糊的車輛、清晰的車輛、人臉、人體、手機,或者沒有寫進來的其他的東西。
在應用里,我們希望它們之間都有ID對應,同一類對象,比如人臉和人臉之間,進行比對之后,就知道兩個人臉是不是同一個人的概率,如果是同一個人,再把兩個ID合并,其他的也是一樣。但是當我關注下面這樣的事的時候,就不一樣了。一個人開了車,然后從這個車上下來,這個時候,我作為一個人很容易知道這個車是他的車,他是司機也好,他是副駕駛也好,這個關系我知道,但是人工智能很難處理這樣的事情,它需要通過一些邏輯上的分析以及一些模糊的匹配去得到這樣的關系。
比如圖中橫向的,車輛和人臉之間的關系,模糊車輛和清晰車輛之間的關系,模糊車輛就是看不清楚車牌,但是大概能看清這個車,清晰車輛就是車牌能看得更清楚一些。我們會通過一些模糊匹配的方式以及時空關系等方式把它們匹配起來。包括人臉和人體也是一樣,能看清這張臉,但是當其他任何拍這個人拍得比較小的時候,這張臉看不清楚了,我怎么知道這個人還是你,這也是一個要打通的關系。人體和手機更是這樣。當我們把橫向和縱向的關系都打通, ID全部的關系就通了?,F(xiàn)在我的圖中打問號的這幾個地方,實際上是目前做得并不好的地方,這也是人工智能相關的應用在近幾年要特別加強,也是最有機會的地方。
你的業(yè)務需要AI/CV嗎?
我接受過很多的公司來向我們咨詢方案,想要他們的業(yè)務里獲得AI的能力,用來幫助他們的業(yè)務進行優(yōu)化和轉(zhuǎn)型。在實際項目中我也接觸了幾個行業(yè),我們也做了一些產(chǎn)品去應用于不同行業(yè)。
圖中列的幾個行業(yè)有這樣的一些關系,首先從公安業(yè)務說起,它的特點就是2G,主要的業(yè)務目標是公安稽查、布控,就是剛才講的動態(tài)黑名單布控、靜態(tài)圖幀這樣的一些業(yè)務,這個業(yè)務做了幾年。說實話,這是我們的衣食父母,到現(xiàn)在公安業(yè)務也是整個人工智能行業(yè)最現(xiàn)實的一個業(yè)務方向。以公安業(yè)務的技術(shù)、產(chǎn)品為基礎,我們發(fā)現(xiàn)可以做很多新的東西,比如說智能辦公,樓宇和室內(nèi)顯然比公共場所的業(yè)務量級要大,但這是一個2B的業(yè)務,之前是不好做的,因為成本太高。
大家也看到很多樓宇物業(yè)已經(jīng)應用了包括人臉門禁,它不是一個新鮮的事物,刷臉然后進門或者拍一個證件對臉進行驗證之后就可以進去了,證明你的人和證件是同一個。但是智能辦公的要求是不一樣的,它的要求是不只在門口要有這樣的設備,在公司的各個角落里都要有,包括休閑區(qū)、工作區(qū),甚至車口、門口等等,這作用是什么呢?作用就是把辦公區(qū)里人的行為數(shù)據(jù)化,當然能做到這點的前提就是成本降低了。包括收費業(yè)務,有些朋友應該發(fā)現(xiàn)廣東這邊已經(jīng)有了,就是當你進入高速路口時,可以刷支付寶進行收費,不用去ETC,也不用去交現(xiàn)金。很快它可能做到連手機的支付寶也不用刷了,它看到你的車牌,并且看到你的臉,把車牌和你的臉進行驗證之后,你就直接可以開車通過了。當然之前你要通過支付寶去存一些錢,或者綁定支付寶在相應的帳戶里,這樣就會得到一個更快捷的通過方法。后面還有幾個這樣的業(yè)務目標,不擴展講了。我覺得蠻有意思的,通過一種技術(shù)從高大上而專業(yè)(圖左邊)到走向非常便宜而廣泛(圖右邊)的這一路上,有非常多的機會。實際上正是這樣的轉(zhuǎn)變,才能讓一個技術(shù)真正落地,實現(xiàn)它的價值。
你的業(yè)務需要一個算法團隊嗎?
這個問題好多人問的,就是當你的公司想做一些AI相關的業(yè)務,你需不需要自己養(yǎng)一個算法團隊。這沒有直接的答案,得具體問題具體分析,需要看是哪些方面的業(yè)務。
首先你的業(yè)務從AI的層面上來講,是不是一個通用的類型。比如說你希望像美圖秀秀拍一個人臉之后進行美化,這個就有有可能不需要自己的AI團隊,百度騰訊谷歌微軟這樣一些提供基礎AI服務的公共資源以及像“一桶筐湯”這樣的公司提供的方案,都可以是你的選擇。但是當你遇到一些業(yè)務別人并沒有涉及過的或者你的領域數(shù)據(jù)很獨特時,可能就得養(yǎng)一個算法團隊了。但是需要更正一下,確切的說是算法“工程”團隊。算法團隊是更基礎的層面,但算法工程團隊實際上是把現(xiàn)成的算法進行實踐和工程化的團隊,這是非常必要的。
做一個AI的業(yè)務在研發(fā)團隊里需要有這樣一些角色,算法團隊、軟件團隊、設備團隊,更包括運營和售前。這些團隊角色之間的關系,我簡單講一下。比如說算法團隊和軟件團隊之間的關系,看起來很自然,算法團隊提供算法,給軟件團隊來包裝成產(chǎn)品。但實際上并不是這么直接,算法的結(jié)果一定是循序漸進的,開始得到的結(jié)果肯定不好。軟件團隊提供給用戶的價值,是通過算法體現(xiàn)出來,但是算法還不夠好的過程中,軟件要當好一個背鍋俠的角色,它需要通過各種手段來進行補助。算法不是萬能的,軟件在合適的時候巧妙的使用算法,才能實現(xiàn)算法最大的價值,不能美玉當磚。這些團隊里,有不少故事可以講,有機會我專門整理。
今天的分享就到這里,謝謝大家。
- 第九屆華為ICT大賽中國總決賽收官 84支隊伍晉級全球總決賽
- 聯(lián)想集團黃建恒:SSG業(yè)務已連續(xù)15個季度雙位數(shù)增長
- 聯(lián)想集團ISG總裁:已將多款暢銷服務器進行升級
- 全球超大規(guī)模數(shù)據(jù)中心數(shù)量五年翻倍,2024年新增137個!
- 華為楊超斌:行業(yè)智能化是開啟產(chǎn)業(yè)新紀元的磅礴引擎
- 華為郭振興:2025年行業(yè)數(shù)智化將呈現(xiàn)五大特征
- 加速行業(yè)智能化!華為攜手伙伴共筑解決方案競爭力,共贏時代新機遇
- 華為李鵬:AI正深刻改變每一個行業(yè),攜手伙伴共贏全面智能化時代
- 華為汪濤:全面推進“全面智能化”戰(zhàn)略,發(fā)展伙伴“同路人”共贏智能未來
- 因聚而生,眾智有為:華為中國合作伙伴大會2025圓滿舉行
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。