當(dāng)我們喪失了對(duì)"好"與"壞"評(píng)判的標(biāo)準(zhǔn),我們就是在一片渾渾噩噩中瞎折騰

風(fēng)控建模的學(xué)習(xí)材料往往從模型開(kāi)始講,最后才講到模型評(píng)價(jià)的標(biāo)準(zhǔn)上來(lái)。因?yàn)槟P捅旧肀容^難以理解,所以導(dǎo)致評(píng)價(jià)標(biāo)準(zhǔn)的理解上,往往跟模型的復(fù)雜性攪在一起,感覺(jué)理解起來(lái)更加困難。

其實(shí),評(píng)價(jià)風(fēng)控的標(biāo)準(zhǔn)跟模型是沒(méi)關(guān)系的,標(biāo)準(zhǔn)是一只尺子,用來(lái)衡量我們做的事情跟我們目標(biāo)的距離,而模型就是我們做的事情。在這個(gè)尺子的度量下,哪個(gè)模型好,哪個(gè)模型壞,就可以量化的比較出來(lái)了。

所以,我們換個(gè)思路,先把我們的"尺子"講清楚,然后再去講這些模型如何去達(dá)到尺子的要求。今天這一講呢,我們講--混淆矩陣。

做風(fēng)控審核的朋友要問(wèn)了,"我就是審核一個(gè)客戶的好與壞,咋還來(lái)一個(gè)矩陣呢,我學(xué)生的時(shí)候就怕看見(jiàn)矩陣,頭疼"。其實(shí),不要怕,這個(gè)矩陣是非常簡(jiǎn)單的,它只是借用了個(gè)矩陣的表達(dá)形式罷了。

首先,我們樹(shù)立一個(gè)概念,我們每天的工作,是去審核一個(gè)個(gè)單個(gè)的借款人,而今天我們討論的標(biāo)準(zhǔn),不是針對(duì)一個(gè)借款人的,而是對(duì)我們一段時(shí)間內(nèi)所有審核工作的一個(gè)綜合考量。比如,過(guò)去3個(gè)月審核了1萬(wàn)個(gè)借款人,那總體來(lái)講,審核效果如何呢,我們需要對(duì)這個(gè)考量制定量化的考核指標(biāo)。

那么,問(wèn)題就來(lái)了,什么樣的指標(biāo)能夠告訴大家審核的結(jié)果的好壞呢?

壞帳率?有朋友說(shuō),如果發(fā)生壞帳越少,肯定是風(fēng)控做的越好。問(wèn)題是,如果我們把所有用戶都拒掉,壞帳率肯定是0,因?yàn)榫蜎](méi)有放貸嘛,哪來(lái)的壞帳。那銷(xiāo)售部門(mén)肯定要鬧翻天了,不交易哪來(lái)的提成?。克?,并不是說(shuō)壞帳率越低越好,還要考慮放貸的通過(guò)率。

通過(guò)率?通過(guò)的越多,銷(xiāo)售部門(mén)的提成越高,大家都樂(lè)翻天了。老板這個(gè)時(shí)候要出場(chǎng)了,你們什么樣的客戶都做,壞賬怎么辦?都讓老子抗么?風(fēng)控人員不想混了么?

那最厲害的風(fēng)控效果就是,呆帳率為零,而通過(guò)率是最高的。通俗來(lái)講,就是應(yīng)該放貸的都放了,而不應(yīng)該放的都沒(méi)放。而可悲的現(xiàn)實(shí)是,這樣的判斷力太難實(shí)現(xiàn)了,除了神以外,我們凡人是幾乎無(wú)法達(dá)到這樣的智慧的。我們審批通過(guò)的,肯定有漏網(wǎng)之魚(yú)并最終導(dǎo)致壞賬;而我們拒掉的,肯定有誤殺的,該賺的錢(qián)沒(méi)賺到。

那我們所尋求的各種手段,包括人工來(lái)審核,打分卡,邏輯回歸以及其他的大數(shù)據(jù)算法,要達(dá)到的目標(biāo),無(wú)非是"漏網(wǎng)之魚(yú)越少越好,同時(shí)誤殺的也越少越好"。很長(zhǎng)時(shí)間內(nèi),我們只能逼近兩者的最優(yōu)效果,但卻無(wú)法達(dá)到。

于是,我們定義了幾個(gè)指標(biāo),來(lái)量化出上面所說(shuō)的情況。

本身是好客戶,判斷也為好客戶的人群數(shù)量,英文標(biāo)記為T(mén)P:True Positive

本身是壞客戶,判斷也為壞客戶的人群數(shù)量,英文標(biāo)記為T(mén)N:True Negative

本身是好客戶,卻判斷為壞客戶的人群數(shù)量,即誤殺掉的,英文標(biāo)記為FN:False Negative

本來(lái)是壞客戶,卻判斷成好客戶的人群數(shù)量,即漏網(wǎng)之魚(yú),英文標(biāo)記為FP: False Positive

舉個(gè)例子,有1000個(gè)貸款申請(qǐng)人,我們的風(fēng)控人員人工將其中400個(gè)人判斷成好人,600個(gè)人判斷成壞人,即通過(guò)率是40%。結(jié)果發(fā)現(xiàn),這400個(gè)人中,有300個(gè)還款了,100個(gè)成壞帳了,即TP=300,F(xiàn)P=100;而其實(shí)那600個(gè)人中,有200個(gè)是能還款的(假定我們是知道的),而400個(gè)人是真的還不了錢(qián)的,那么TN=400,F(xiàn)N=200。

為了更好地將TP,F(xiàn)P,TN,F(xiàn)N組織起來(lái),我們把它們放成一個(gè)矩陣的形式(插入矩陣表達(dá)),叫做混淆矩陣,看,多么簡(jiǎn)單。我們肯定希望,TP和TN越大越好,F(xiàn)P和FN越小越好。

我們現(xiàn)在把判斷的方法從風(fēng)控人員人工判斷,轉(zhuǎn)成用邏輯回歸來(lái)判斷,這個(gè)衡量的方法是不變的。也就是說(shuō)"有1000個(gè)貸款申請(qǐng)人,我們的邏輯回歸風(fēng)控模型將其中400個(gè)人判斷成好人,600個(gè)人判斷成壞人,即通過(guò)率是40%。結(jié)果發(fā)現(xiàn),這400個(gè)人中,有300個(gè)還款了,100個(gè)成呆帳了,即TP=300,F(xiàn)P=100;而其實(shí)那600個(gè)人中,有200個(gè)是能還款的(假定我們是知道的),而400個(gè)人是真的還不了錢(qián)的,那么TN=400,F(xiàn)N=200。",

看,評(píng)判的標(biāo)準(zhǔn)來(lái)講,與模型是無(wú)關(guān)的。

上例中,真實(shí)的好人數(shù)=TP+FN=300+200=500(即正確判斷出的好人+誤殺的),真實(shí)的壞人數(shù)=TN+FP=400+100=500(即正確判斷出的壞人+漏網(wǎng)的壞人)。如果用邏輯回歸,發(fā)現(xiàn),TP=350(350個(gè)好人正確判斷出來(lái)了),F(xiàn)P=50(50個(gè)漏網(wǎng)之魚(yú)),那么FP=50(誤殺的人150個(gè)),TN=450(450個(gè)壞人判斷出來(lái)了)。那么該模型將比我們?nèi)斯づ袛喑鰜?lái)的效果要好。

好學(xué)的朋友一定又有疑問(wèn)了,那600個(gè)人已經(jīng)被拒掉了,我怎么知道其中有多少個(gè)好人被誤殺呢?非常好的問(wèn)題,我們不知道。

所以我需要在一個(gè)已知結(jié)果的人群當(dāng)中來(lái)檢驗(yàn)我們的模型,我們清楚每一個(gè)人是好人還是壞人,然后把這個(gè)結(jié)果先隱藏起來(lái),我們讓模型去做決策,看決策出來(lái)的結(jié)果(有的時(shí)候也被稱(chēng)為預(yù)測(cè)結(jié)果)與真實(shí)結(jié)果的對(duì)比,這些度量就出來(lái)了。

那這個(gè)已知結(jié)果的人群是從哪里來(lái)的?是從我們真實(shí)的業(yè)務(wù)中來(lái)的,也就是經(jīng)常說(shuō)的,要有積累的業(yè)務(wù)數(shù)據(jù)(也叫樣本數(shù)據(jù),每一筆借款記錄當(dāng)成一個(gè)樣本),到了一定的量,來(lái)做模型出來(lái)。這個(gè)時(shí)候,我們往往把這些樣本數(shù)據(jù)分成兩部分,一部分樣本用來(lái)訓(xùn)練(推算)模型出來(lái),然后用另外一部分來(lái)測(cè)試,得出最終的結(jié)果出來(lái)。

如果思考的更深一點(diǎn),我們發(fā)現(xiàn),這些樣本,其實(shí)我們是丟掉了那些被拒掉的案例,只留下了放貸的(因?yàn)檫@樣的才知道最終結(jié)果)。也就是說(shuō),其實(shí)我們是利用那些真實(shí)放款人的數(shù)據(jù)來(lái)訓(xùn)練模型的,那些我們通過(guò)人的經(jīng)驗(yàn)被拒掉的,是難以體現(xiàn)在我們的模型中的(因?yàn)槟P褪腔诔晒Ψ趴畹臉颖緛?lái)訓(xùn)練的)。而我們可能拿這個(gè)模型來(lái)決定一個(gè)人的貸款申請(qǐng)(人的經(jīng)驗(yàn)來(lái)篩選這個(gè)環(huán)節(jié)沒(méi)有了),這里面的偏差的問(wèn)題如何解決?這個(gè)問(wèn)題就是我們?cè)隈R姆杜·雷法特所著《信用風(fēng)險(xiǎn)評(píng)分卡研究》一書(shū)中看到的拒絕演繹問(wèn)題。這個(gè)問(wèn)題比較復(fù)雜和充滿爭(zhēng)議,后面我們專(zhuān)門(mén)的章節(jié)介紹。

以上的介紹都很簡(jiǎn)單,下面我們來(lái)點(diǎn)更深度的。

有一個(gè)模型A,它預(yù)測(cè)出的一個(gè)貸款人是好是壞,其實(shí)不是一個(gè)絕對(duì)值,而是一個(gè)概率。即,模型預(yù)測(cè)張三80%的可能性是好人。對(duì)于好人這個(gè)群體,我們可以數(shù)一數(shù),不同概率區(qū)間段上(比如,(80%~85%]就是一個(gè)區(qū)間段,表示概率大于80%且小于等于85%),好人的個(gè)數(shù)。我們就會(huì)得到一個(gè)<區(qū)間段,個(gè)數(shù)>的對(duì)應(yīng)關(guān)系。比如<(80%~85%],100>表示,有100個(gè)好人的概率落在了(80%~85%]區(qū)間上。我們把不同區(qū)間段的對(duì)應(yīng)關(guān)系表達(dá)在一張圖上,這個(gè)關(guān)系一般符合圖1的樣子(學(xué)術(shù)上叫做分布)。這些柱狀圖可以簡(jiǎn)化為一條曲線來(lái)表達(dá)這個(gè)趨勢(shì)。

我們需要設(shè)定一個(gè)閾值,比如說(shuō)大于70%好人概率的都認(rèn)為是好人,那么張三(80%>70%)就被預(yù)測(cè)為好人;如果說(shuō)這個(gè)標(biāo)準(zhǔn)提高到了90%,那張三就被預(yù)測(cè)為壞人了。

比如,在圖2中,我們以虛線表示的刻度作為評(píng)判好人的標(biāo)準(zhǔn),則灰色部分(虛線左邊)為FN(本身是好人,誤殺為壞人),斜線部分(虛線右邊)為T(mén)P(本身是好人,判斷也是好人)。

同樣的,我們也可以針對(duì)壞人群體做出類(lèi)似的曲線出來(lái),如圖3所示,不同的是,斜線部分(虛線左邊)為T(mén)N(本身是壞人,判斷為壞人),灰色部分(虛線右邊)為FP(本身是壞人,誤判為好人)。

我們就很容易理解,這個(gè)標(biāo)準(zhǔn)的選擇決定了我們對(duì)放款控制的力度。如果虛線越往右,風(fēng)險(xiǎn)控制越嚴(yán)苛,F(xiàn)P(漏網(wǎng)之魚(yú))就越小,但TP(正確放貸的量)也越小,被誤殺就越多。反過(guò)來(lái),如果虛線越往左,風(fēng)險(xiǎn)控制越松,TP(正確放貸的量)越多,但FP(漏網(wǎng)之魚(yú))也越多,正確找出來(lái)的壞人就越少。這是符合我們正常的理解的 。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2016-03-15
當(dāng)我們喪失了對(duì)"好"與"壞"評(píng)判的標(biāo)準(zhǔn),我們就是在一片渾渾噩噩中瞎折騰
風(fēng)控建模的學(xué)習(xí)材料往往從模型開(kāi)始講,最后才講到模型評(píng)價(jià)的標(biāo)準(zhǔn)上來(lái)。因?yàn)槟P捅旧肀容^難以理解,所以導(dǎo)致評(píng)價(jià)標(biāo)準(zhǔn)的理解上,往往跟模型的復(fù)雜性攪在一起,感覺(jué)理解起來(lái)更加困難。其實(shí),評(píng)價(jià)風(fēng)控的標(biāo)準(zhǔn)跟模型是沒(méi)關(guān)系的,標(biāo)準(zhǔn)是一只尺子,用來(lái)衡量我們做的事情跟我們目標(biāo)的距離,而

長(zhǎng)按掃碼 閱讀全文