因果關(guān)系和相關(guān)關(guān)系在分析過程中應(yīng)用廣泛。 然而,一部分人在不了解兩種方法的支撐邏輯時往往將兩種關(guān)系等同看待。 顯然,人們被困于因果和相關(guān)的內(nèi)在聯(lián)系而不能正確的使用它們。 雖然在英文發(fā)音上兩者比較近似,但其適用分析的現(xiàn)象卻大有不同,它們基本的含義也有很大區(qū)別。
為了理清楚因果與相關(guān)關(guān)系的區(qū)別,我們下面進(jìn)行一些小小的測驗。分析以下例子中的現(xiàn)象, 然后判斷在兩個事務(wù)(X 和 Y)之間是否存在必然因果關(guān)系。答案在測試后公布。
例1: X:學(xué)生受教育的等級 Y:畢業(yè)后的薪水
前提:學(xué)校B學(xué)生畢業(yè)后拿到的平均工資更高,接受學(xué)校B的教育是導(dǎo)致工作較好的原因嗎?
例 2:X: 吸煙 Y:精神壓力水平
前提: 吸煙的人精神壓力水平較大,那么吸煙會產(chǎn)生壓力嗎?
例3:X:有孩子 Y:成熟水平
前提:有孩子的人更加成熟,有孩子是成熟的原因嗎?
例4:X:海拔 Y: 高度
前提:海拔越高的地方我們感覺越冷。這是不是意味著海拔是導(dǎo)致溫度低的原因?
我希望上面的例子已經(jīng)激發(fā)了你閱讀本文的熱情。 雖然,因果與相關(guān)的區(qū)別是一個老掉牙的話題,但是人們依舊不能很好的掌控這些術(shù)語。 本文將試圖通過最簡單的方式解釋因果和相關(guān)關(guān)系。
在這篇文章中,我將通過了解是否只有相關(guān)關(guān)系或者存在必然因果關(guān)系來區(qū)分因果關(guān)系和相關(guān)關(guān)系的區(qū)別。 考慮到我們往往采用黑箱操作進(jìn)行分析,所以想讓分析基礎(chǔ)更牢靠的話,了解這些概念是非常必要的。 一些技術(shù)并沒有展現(xiàn)在分析中,但它們的應(yīng)用卻貫穿整個工業(yè)。
測試答案:
例1:必然因果關(guān)系不存在。例如,如果只有天賦比較高的人才會有機(jī)會接受B學(xué)校的教育,而天賦比較高的人更容易獲得高的薪資水平。因此這些高智商的小伙伴即使不接受B學(xué)校的教育也能得到很高的薪水。所以薪水高有其他備選因素。
例2:必然因果關(guān)系不存在。我們可以基于逆因果關(guān)系來否定該命題。例如,壓力大導(dǎo)致一個人吸煙。
例3:必然因果關(guān)系不存在。同樣我們可以采用逆因果關(guān)系來否定該命題。例如:成熟的人才準(zhǔn)備要孩子。我們也可以將成熟與否歸結(jié)于年齡。年齡越大,越傾向于要孩子,也越來越成熟。
例4:必然因果關(guān)系不存在。再用逆因果關(guān)系來分析該命題有些不可能。可通過相互獨立關(guān)系和備擇原因分析來拒絕該命題。
那么什么是建立必然因果關(guān)系的關(guān)鍵呢?
備擇原因:如果備擇原因(Z)既影響X又影響Y(即Z=>X &Z=>Y同時成立),則拒絕X是導(dǎo)致Y的必然原因。
逆因果關(guān)系:如果不是X影響Y,而是Y影響X,則不能推出X是導(dǎo)致Y的必然原因。
相互獨立:一些時候,X與Y之間可能只是單純的相關(guān)而沒有任何因果聯(lián)系。
怎樣提取因果關(guān)系帶來的影響呢?
在很多領(lǐng)域(例如制藥),研究因果效應(yīng)非常中重要。在闡述方法前,我們先了解一些定義:
1)隨機(jī)試驗數(shù)據(jù):一個試驗定義為給不同的條件分配觀測單元。條件的不同往往是對觀測單元的控制手段不同。通過試驗獲得的數(shù)據(jù)為隨機(jī)試驗數(shù)據(jù)。
2)觀測數(shù)據(jù): 很多時候進(jìn)行隨機(jī)試驗是一種奢侈,我們只能獲得已有的數(shù)據(jù)資源。這些數(shù)據(jù)已經(jīng)產(chǎn)生,并且不能設(shè)定發(fā)生條件。
提取觀測數(shù)據(jù)中的因果效應(yīng)是非常難且不確定的。為得到確定的因果關(guān)系,我們需要進(jìn)行隨機(jī)試驗。
為什么觀測數(shù)據(jù)不能確定其因果關(guān)系呢?
1)觀測數(shù)據(jù)的獲得不是隨機(jī)的,我們不能總結(jié)出其中的因果效應(yīng)
2)舉個例子來說,學(xué)生從學(xué)校B畢業(yè)會有高薪資水平,這不能表示薪資水平與接受B學(xué)校教育的因果關(guān)系,因為接受B學(xué)校教育是有前提的。
3)如果我們隨機(jī)的選擇學(xué)生去參加B學(xué)校的教育,那么接受B學(xué)校教育和薪資水平之間的因果關(guān)系才比較牢靠。
為什么不能總是進(jìn)行隨機(jī)試驗?zāi)兀?/b>
1)有時試驗成本非常昂貴。
2)很多時候,并不是所有的試驗都可以進(jìn)行。例如你想知道抽煙是否會產(chǎn)生壓力,這樣你需要迫使正常的人吸煙,這往往是不能實現(xiàn)的。
在這些情況下,應(yīng)如何利用觀測數(shù)據(jù)進(jìn)行因果效應(yīng)提取呢?
針對觀測數(shù)據(jù)的因果效應(yīng)提取有很多研究。大部分研究的目標(biāo)是消除未知因素的影響。在這里我將羅列一些被廣泛應(yīng)用的方法。
1、 面板模型:如果未觀測的變量在某一維度上是不變的,那么這個方法將非常簡單。例如,如果未觀測的變量不隨時間發(fā)生變化,我們可以建立面板模型用以剔除其他未觀測因素的影響。B學(xué)校=>高薪資的例子中,我們假設(shè)所有其他因素不隨時間變化。然后進(jìn)行如下處理:
(1) 將薪資y對優(yōu)質(zhì)學(xué)校(用上標(biāo)T表示)以及未觀測因素(用上標(biāo)U表示)做回歸。
(2) 未觀測因素不隨時間變化,簡化模型如下:
(3) 差分剔除未觀測因素的影響:
得到接受優(yōu)質(zhì)學(xué)校教育和薪資水平的因果關(guān)系系數(shù)。
2、 模擬控制:觀測數(shù)據(jù)最大的問題在于我們沒有獲得控制樣本和非控制樣本。以吸煙的例子來說,一個人不能同時吸煙又不吸煙。
但是,如果我們找到控制樣本的對應(yīng)的非控制樣本,比較相對應(yīng)的觀測數(shù)據(jù),將有助于提取因果效應(yīng)。這是工業(yè)生產(chǎn)中運(yùn)用的最多的方法。
對應(yīng)的非控制樣本可以采用最近鄰法則,k-d 樹,或其他方法獲得。讓我們來舉一個例子,設(shè)有兩組相同年齡、性別和收入等的人。一組開始吸煙,另一組不吸煙。在其他條件不變的情況下,一段時間內(nèi)兩組人員的壓力水平可以進(jìn)行比較。
雖然,上述方法在理論上聽起來非常鼓舞人心,但是只改變一個變量而其他變量不變的對應(yīng)樣本非常難以獲得,這往往導(dǎo)致因果效應(yīng)的提取錯誤。這將在以后更深入的文章中進(jìn)行討論。
3、 工具變量法(IV):這也許是我將介紹的最困難的方法。步驟如下:
(1)找到原因結(jié)果對
(2)找到一種因素與原因因素有關(guān)但與結(jié)果因素對原因因素回歸得到殘差無關(guān)。這種因素被稱為工具變量。
(3)用工具變量估計原因變量
(4)用估計的原因變量回歸結(jié)果變量,得到真實的原因與結(jié)果對之間的因果相應(yīng)
在觀測數(shù)據(jù)中,采用回歸分析方法得到的原因因素和結(jié)果因素之間系數(shù)關(guān)系是有偏的。采用工具變量法,可以得到一個無偏的系數(shù)估計結(jié)果。在吸煙與精神壓力的例子中,我們認(rèn)為可能存在逆向的結(jié)果。如果我們可以找到和煙草消費量有關(guān)和精神壓力無關(guān)的變量,也許我們能獲得吸煙與精神壓力之間真實因果關(guān)系。例如,我們發(fā)現(xiàn)監(jiān)管稅會提高煙草的價格并降低煙草的消費。那么我們可以將監(jiān)管稅作為工具變量而研究吸煙和精神壓力之間的關(guān)系。
4、 回歸的非連續(xù)性設(shè)計:這是我(作者非譯者)最喜歡的方法。該方法使得觀察數(shù)據(jù)接近隨機(jī)試驗數(shù)據(jù)。
在下圖中,存在控制條件與非控制條件在人口比率上的一個斷點。假設(shè)我們想檢驗獎學(xué)金對學(xué)生成績的影響。注意,獎學(xué)金一般提供給預(yù)科考試成績在80%以上的學(xué)生。這里將會產(chǎn)生一個扭曲。例如聰明的學(xué)生將繼續(xù)他們的智慧。因此將非常難剝離出獎學(xué)金與后期考試成績的關(guān)系。
但是,如果我們只比較成績稍微低于80%(比如79.9%)和成績稍微高于80%(比如80.1%)的學(xué)生,將產(chǎn)生不一樣的結(jié)果。假設(shè)成績在79.9%與成績在80.1%的學(xué)生的差異不明顯。唯一影響他們后期考試成績的只有獎學(xué)金這一個因素。這樣的研究就類似于隨機(jī)設(shè)計實驗中的控制變量法了。
采用該方法將很好地推斷出因果效應(yīng)。不過,獲得一個有斷點的維度是非常的困難。
翻譯:F.xy
原文作者:TAVISH SRIVASTAVA
原文鏈接:http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/
End.
- 特斯拉Model Y新版預(yù)售,iPhone 18 Pro系列升級,汽車界與科技界碰撞新火花
- 小鵬汽車何小鵬回應(yīng)特斯拉 Model Y 撞臉風(fēng)波:設(shè)計碰撞,靈感碰撞,究竟誰更勝一籌?
- 日本車商2024年新車銷量下滑,本田跌至近10年最低位,中國市場面臨挑戰(zhàn)?
- 英偉達(dá)批評美政府AI芯片出口限制:限制不利己,全球轉(zhuǎn)向替代技術(shù)之風(fēng)
- 特斯拉煥新Model Y難敵華為問界R7,智能科技誰領(lǐng)風(fēng)騷?
- 開源巨頭聯(lián)手打造Chromium聯(lián)盟,推動Linux生態(tài)創(chuàng)新發(fā)展
- 曹德旺巨資辦校,福耀科技大學(xué)引領(lǐng)行業(yè)新風(fēng)向,培養(yǎng)未來之星
- 愛馳汽車陷股權(quán)凍結(jié)風(fēng)波,能否順利復(fù)工復(fù)產(chǎn)引關(guān)注
- 小鵬汽車CEO何小鵬:雷軍不僅直言不諱,還勸我多做營銷,不失為良師益友
- 馬斯克大膽計劃:未來十年內(nèi)特斯拉機(jī)器人產(chǎn)能提升10倍,300億機(jī)器人將顛覆各行各業(yè)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。