生存分析在醫(yī)學(xué)、生物學(xué)、金融學(xué)等領(lǐng)域是都是應(yīng)用相當(dāng)廣泛的統(tǒng)計(jì)學(xué)分支。最初是應(yīng)用于醫(yī)學(xué)研究中, 例如病人確診疾病之后多長時(shí)間會死亡,疾病治愈之后多久會復(fù)發(fā)等等。然而 生存分析中的生存并不僅僅指生物學(xué)上的生存,還可以引申為其他各類在一定時(shí)間間隔內(nèi)觀察對象是否發(fā)生某事件的實(shí)驗(yàn)。如今,生存分析已經(jīng)被廣泛的應(yīng)用到金融、工程、網(wǎng)絡(luò)等各個(gè)領(lǐng)域,例如用來分析機(jī)器零件的損壞情況,預(yù)測信息在社交網(wǎng)絡(luò)的傳播程度,分析某項(xiàng)服務(wù)的用戶流失度等等。
IBM SPSS 計(jì)劃在后續(xù)版本中提供對生存分析中較為實(shí)用的參數(shù)回歸模型(Parametric Regression Modeling,簡稱 PRM)的支持。
2.數(shù)據(jù)刪失
數(shù)據(jù)刪失是指在對研究對象的觀察過程中,該對象的生存時(shí)間沒有被完整的觀測到,因而造成生存數(shù)據(jù)不完整的現(xiàn)象。在實(shí)際的觀察實(shí)驗(yàn)中,通常很難準(zhǔn)確的觀察到對象狀態(tài)發(fā)生變化的精確時(shí)間點(diǎn)。比如患者在治愈之前自行終止治療,或者在整個(gè)研究的觀察期間都沒有被治愈。由于觀察手段或者被觀察對象存在種種限制,因此難免會出現(xiàn)觀察數(shù)據(jù)不完整的情況 。
刪失數(shù)據(jù),通常分為左刪失,右刪失和區(qū)間刪失三種情況:
左刪失(Left Censored):是指失效事件的發(fā)生時(shí)間只能確定是在某一時(shí)間點(diǎn)之前,即失效事件的起始時(shí)間沒有觀測到。右刪失(Right Censored):是指失效事件的發(fā)生時(shí)間只能確定是在某一時(shí)間點(diǎn)之后,即失效事件的結(jié)束時(shí)間沒有觀測到。區(qū)間刪失(Interval Censored):是指失效事件的發(fā)生時(shí)間可以確定在某一時(shí)間區(qū)間內(nèi)。非刪失數(shù)據(jù)(Failure Data),就是準(zhǔn)確的觀察到了失效事件發(fā)生的事件點(diǎn)的生存數(shù)據(jù)。也就是說失效事件的起始時(shí)間和結(jié)束時(shí)間相等的數(shù)據(jù)。
在生存數(shù)據(jù)中,通常用 F 來表示非刪失數(shù)據(jù),L 表示左刪失,R 表示右刪失,I 表示區(qū)間刪失。由此我們可以看到在圖 1 中失效事件的時(shí)間與刪失狀態(tài)之間的關(guān)系。
圖 2 刪失數(shù)據(jù)示例
在圖 2 中,我們可以更加直觀的看到不同刪失狀態(tài)的數(shù)據(jù)之間的差別。其中,點(diǎn)表示失效事件發(fā)生的真實(shí)時(shí)間,直線表示對象被觀察的時(shí)間段,虛線表示對象沒有被觀察到的時(shí)間段??梢詮膱D 2 中看出,對象 1 的失效事件是發(fā)生在被觀察的事件內(nèi)的,因此屬于非刪失數(shù)據(jù)。對象 2 的失效事件發(fā)生在對象沒有被觀察的事件段中,因此只能確定失效事件發(fā)生在某個(gè)時(shí)間之后,屬于右刪失數(shù)據(jù)。對象 3 的失效事件能被確定在某個(gè)時(shí)間點(diǎn)之前,因此屬于左刪失數(shù)據(jù)。對象 4 的失效事件可以確定發(fā)生在一個(gè)時(shí)間區(qū)間內(nèi),因此數(shù)據(jù)區(qū)間刪失數(shù)據(jù)。
在實(shí)際中,有時(shí)也會只用一個(gè)數(shù)據(jù)列來表示失效事件發(fā)生的事件。比如按照某固定頻率進(jìn)行的觀察實(shí)驗(yàn),這樣的實(shí)驗(yàn)觀察到的生存數(shù)據(jù)中,就只會有非刪失數(shù)據(jù)和左刪失數(shù)據(jù),因此只需要用一個(gè)數(shù)據(jù)列來保存時(shí)間信息。
3.相關(guān)特征函數(shù)
在生存分析中,最為重要的就是對生存函數(shù)的估計(jì)。生存函數(shù)(Survival Function),是指被觀察對象生存時(shí)間長于時(shí)間 t 的概率,即觀察對象經(jīng)歷 t 時(shí)間之后仍然存活的可能性。因此,生存函數(shù)又稱作(Cumulative Survival Rate)。
除了生存函數(shù)之外,風(fēng)險(xiǎn)函數(shù)也是生存分析研究的一個(gè)重要目標(biāo)。風(fēng)險(xiǎn)函數(shù)(Hazard Function),表示被觀察對象在觀察時(shí)刻 t 的死亡概率。這個(gè)概率越高,改觀察對象發(fā)生事件的可能就越大。
輸入數(shù)據(jù)要求符合前面所介紹的生存數(shù)據(jù)的基本要求。Data Preparation:是在對于刪失數(shù)據(jù)的時(shí)間和狀態(tài)進(jìn)行檢查,對于狀態(tài)和時(shí)間數(shù)據(jù)存在沖突的數(shù)據(jù)進(jìn)行處理。對沖突數(shù)據(jù)通常有三種處理方法,以狀態(tài)為標(biāo)準(zhǔn)修改數(shù)據(jù),以數(shù)據(jù)為標(biāo)準(zhǔn)修改狀態(tài)以及刪除存在沖突的數(shù)據(jù)。AFT Modeling:可以指定生存時(shí)間的分布,也可以用多個(gè)分布來建立多個(gè)模型。Distribution Selection & Predictor Selection:從不同分布的模型中選取最有模型,并從所有參數(shù)中選擇出來對觀察對象生存有顯著影響的參數(shù)。Output:建模的結(jié)果被存儲在 PMML 和 StatXML 中。其中,PMML 中存儲了利用模型來對數(shù)據(jù)做預(yù)測的信息,StatXML 中存儲了模型的信息和可視化展示。可以看到在上圖中,”tenure”是表示用戶已經(jīng)使用服務(wù)的時(shí)間,可以理解為生存分析中的時(shí)間(Time)。由于使用時(shí)間肯定是從 0 開始,因此可以只用一列數(shù)據(jù)來表示。”churn”用來表示該用戶是否已經(jīng)流失,可以理解為生存分析中的狀態(tài)(Status)。其他的參數(shù)都是表示用戶的特征屬性(Predictors)。
2.建立模型
在建立模型時(shí),我們選擇 Weibull 作為分布假設(shè)。根據(jù)建立模型的結(jié)果,我們可以得知在數(shù)據(jù)中,”Custcat”和”Marital”兩項(xiàng)數(shù)據(jù)對于用戶流失時(shí)間有顯著的影響。因此根據(jù)模型結(jié)果,分別正對這兩項(xiàng)數(shù)據(jù)繪制生存曲線圖。
圖 5 “Custcat”生存曲線圖
圖 6 “Marital”生存曲線圖
從圖中我們可以看出,在 Custcat 中屬于”Basic Service”分類的用戶,以及在”Marital”中屬于”Unmarried”分類的用戶,有更大的概率流失。
3.模型預(yù)測
圖 7 模型預(yù)測結(jié)果
在模型預(yù)測的結(jié)果中我們可以看到,在原始數(shù)據(jù)之后多添加了一列”Predicted Survival”。該數(shù)據(jù)表示根據(jù)之前建立模型,該用戶在當(dāng)前時(shí)間流失的概率。根據(jù)這個(gè)預(yù)測結(jié)果,運(yùn)營商便可以更有針對性的采取營銷措施來保留客戶,產(chǎn)生商業(yè)價(jià)值。
結(jié)束語
生存分析是一種非常有效的數(shù)據(jù)分析手段。對于事件何時(shí)再目標(biāo)上發(fā)生這類問題,AFT 模型可以對影響事件發(fā)生的因素進(jìn)行評估,并進(jìn)行預(yù)測,結(jié)合商業(yè)場景可以幫助用戶做出更加合理的商業(yè)決策。
- 特朗普宣布200億美元投資計(jì)劃,在美國多地建設(shè)數(shù)據(jù)中心
- 工信部:“點(diǎn)、鏈、網(wǎng)、面”體系化推進(jìn)算力網(wǎng)絡(luò)工作 持續(xù)提升算網(wǎng)綜合供給能力
- 2025年超融合基礎(chǔ)設(shè)施的4大趨勢
- 2025年將影響數(shù)據(jù)中心的5個(gè)云計(jì)算趨勢
- 80萬輛大眾汽車因AWS云配置錯(cuò)誤導(dǎo)致數(shù)據(jù)泄露,包含“高精度”位置記錄
- 名創(chuàng)優(yōu)品超4000家門店接入“碰一下”支付,引爆年輕消費(fèi)熱潮
- 免稅店也能用“碰一下”支付了!中免海南免稅店:碰一下就優(yōu)惠
- 報(bào)告:人工智能推動(dòng)數(shù)據(jù)中心系統(tǒng)支出激增25%
- 密態(tài)計(jì)算技術(shù)助力農(nóng)村普惠金融 螞蟻密算、網(wǎng)商銀行項(xiàng)目入選大數(shù)據(jù)“星河”案例
- 專利糾紛升級!Netflix就虛擬機(jī)專利侵權(quán)起訴博通及VMware
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。