如何確保用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)安全?

網(wǎng)絡(luò)犯罪分子遠(yuǎn)程操縱和對(duì)機(jī)器學(xué)習(xí)模型性能產(chǎn)生負(fù)面影響并不難。

惡意用戶(hù)可以毒害機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù),非法訪(fǎng)問(wèn)訓(xùn)練數(shù)據(jù)集中的敏感用戶(hù)信息,并導(dǎo)致類(lèi)似的其他問(wèn)題。

機(jī)器學(xué)習(xí)和人工智能的采用在過(guò)去十年中飆升。涉及這些技術(shù)的應(yīng)用范圍從面部識(shí)別和天氣預(yù)報(bào)應(yīng)用到復(fù)雜的推薦系統(tǒng)和虛擬助手。隨著人工智能越來(lái)越融入我們的生活,人工智能系統(tǒng)中的網(wǎng)絡(luò)安全問(wèn)題也隨之而來(lái)。根據(jù)世界經(jīng)濟(jì)論壇 2022 年全球風(fēng)險(xiǎn)報(bào)告,網(wǎng)絡(luò)安全故障是未來(lái)十年最值得關(guān)注的 10 大全球風(fēng)險(xiǎn)之一。

網(wǎng)絡(luò)安全和人工智能不可避免地會(huì)在某個(gè)時(shí)候交叉,但這個(gè)想法旨在利用人工智能的力量來(lái)加強(qiáng)網(wǎng)絡(luò)安全。雖然它存在于自己的位置,但也需要網(wǎng)絡(luò)安全的力量來(lái)保護(hù)機(jī)器學(xué)習(xí)模型的完整性。這些模型的威脅來(lái)自源頭:模型訓(xùn)練數(shù)據(jù)。危險(xiǎn)在于機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)可能被黑客遠(yuǎn)程或現(xiàn)場(chǎng)操縱。網(wǎng)絡(luò)犯罪分子操縱訓(xùn)練數(shù)據(jù)集以影響算法的輸出并降低系統(tǒng)防御。這種方法通常無(wú)法追蹤,因?yàn)楣粽邆窝b成算法用戶(hù)。

如何操縱機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)?

機(jī)器學(xué)習(xí)周期涉及使用更新的信息和用戶(hù)見(jiàn)解進(jìn)行持續(xù)訓(xùn)練。惡意用戶(hù)可以通過(guò)向機(jī)器學(xué)習(xí)模型提供特定輸入來(lái)操縱此過(guò)程。使用被操縱的記錄,他們可以確定機(jī)密的用戶(hù)信息,如銀行帳號(hào)、社會(huì)保障詳細(xì)信息、人口統(tǒng)計(jì)信息和其他用作機(jī)器學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)的分類(lèi)數(shù)據(jù)。

黑客用來(lái)操縱機(jī)器學(xué)習(xí)算法的一些常用方法是:

數(shù)據(jù)中毒攻擊

數(shù)據(jù)中毒涉及損害用于機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)。這些訓(xùn)練數(shù)據(jù)來(lái)自開(kāi)發(fā)人員、個(gè)人和開(kāi)源數(shù)據(jù)庫(kù)等獨(dú)立方。如果惡意方參與向訓(xùn)練數(shù)據(jù)集提供信息,他們將輸入精心構(gòu)建的“有毒”數(shù)據(jù),從而使算法對(duì)其進(jìn)行錯(cuò)誤分類(lèi)。

例如,如果您正在訓(xùn)練識(shí)別馬的算法,該算法將處理訓(xùn)練數(shù)據(jù)集中的數(shù)千張圖像以識(shí)別馬。為了加強(qiáng)這種學(xué)習(xí),您還輸入了黑白奶牛的圖像來(lái)訓(xùn)練算法。但是,如果不小心將棕色奶牛的圖像添加到數(shù)據(jù)集中,模型會(huì)將其分類(lèi)為馬。該模型在被訓(xùn)練區(qū)分棕色母牛和棕色馬之前不會(huì)理解差異。

同樣,攻擊者可以操縱訓(xùn)練數(shù)據(jù)來(lái)教授有利于他們的模型分類(lèi)場(chǎng)景。例如,他們可以訓(xùn)練算法將惡意軟件視為良性軟件,并將安全軟件視為危險(xiǎn)的使用有毒數(shù)據(jù)的軟件。

數(shù)據(jù)中毒的另一種方式是通過(guò)“后門(mén)”進(jìn)入機(jī)器學(xué)習(xí)模型。后門(mén)是模型設(shè)計(jì)者可能不知道的一種輸入類(lèi)型,但攻擊者可以使用它來(lái)操縱算法。一旦黑客發(fā)現(xiàn)了人工智能系統(tǒng)中的漏洞,他們就可以利用它來(lái)直接教模型他們想要做什么。

假設(shè)攻擊者訪(fǎng)問(wèn)后門(mén)以教導(dǎo)模型,當(dāng)文件中存在某些字符時(shí),它應(yīng)該被歸類(lèi)為良性?,F(xiàn)在,攻擊者可以通過(guò)添加這些字符來(lái)使任何文件成為良性文件,并且每當(dāng)模型遇到這樣的文件時(shí),它就會(huì)按照訓(xùn)練好的內(nèi)容將其歸類(lèi)為良性文件。

數(shù)據(jù)中毒還與另一種稱(chēng)為成員推理攻擊的攻擊相結(jié)合。成員推理攻擊 (MIA) 算法允許攻擊者評(píng)估特定記錄是否是訓(xùn)練數(shù)據(jù)集的一部分。結(jié)合數(shù)據(jù)中毒,成員推理攻擊可用于部分重建訓(xùn)練數(shù)據(jù)內(nèi)部的信息。盡管機(jī)器學(xué)習(xí)模型適用于廣義數(shù)據(jù),但它們?cè)谟?xùn)練數(shù)據(jù)上表現(xiàn)良好。成員推理攻擊和重建攻擊利用這種能力來(lái)提供與訓(xùn)練數(shù)據(jù)匹配的輸入,并使用機(jī)器學(xué)習(xí)模型輸出在訓(xùn)練數(shù)據(jù)中重新創(chuàng)建用戶(hù)信息。

如何檢測(cè)和預(yù)防數(shù)據(jù)中毒實(shí)例?

模型會(huì)定期用新數(shù)據(jù)重新訓(xùn)練,正是在這個(gè)重新訓(xùn)練期間,有毒數(shù)據(jù)可以被引入訓(xùn)練數(shù)據(jù)集中。由于它隨著時(shí)間的推移而發(fā)生,因此很難跟蹤此類(lèi)活動(dòng)。在每個(gè)訓(xùn)練周期之前,模型開(kāi)發(fā)人員和工程師可以通過(guò)輸入有效性測(cè)試、回歸測(cè)試、速率限制和其他統(tǒng)計(jì)技術(shù)來(lái)強(qiáng)制阻止或檢測(cè)此類(lèi)輸入。他們還可以限制來(lái)自單個(gè)用戶(hù)的輸入數(shù)量,檢查是否有來(lái)自相似 IP 地址或帳戶(hù)的多個(gè)輸入,并針對(duì)黃金數(shù)據(jù)集測(cè)試重新訓(xùn)練的模型。黃金數(shù)據(jù)集是基于機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集的經(jīng)過(guò)驗(yàn)證且可靠的參考點(diǎn)。

黑客需要有關(guān)機(jī)器學(xué)習(xí)模型如何工作以執(zhí)行后門(mén)攻擊的信息。因此,通過(guò)實(shí)施強(qiáng)大的訪(fǎng)問(wèn)控制和防止信息泄露來(lái)保護(hù)這些信息非常重要。限制權(quán)限、數(shù)據(jù)版本控制和記錄代碼更改等一般安全實(shí)踐將加強(qiáng)模型安全性并保護(hù)機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)免受中毒攻擊。

通過(guò)滲透測(cè)試構(gòu)建防御

企業(yè)在對(duì)其網(wǎng)絡(luò)進(jìn)行定期滲透測(cè)試時(shí),應(yīng)考慮測(cè)試機(jī)器學(xué)習(xí)和人工智能系統(tǒng)。滲透測(cè)試模擬潛在的攻擊以確定安全系統(tǒng)中的漏洞。模型開(kāi)發(fā)人員可以類(lèi)似地對(duì)他們的算法進(jìn)行模擬攻擊,以了解他們?nèi)绾螛?gòu)建針對(duì)數(shù)據(jù)中毒攻擊的防御。當(dāng)您測(cè)試您的模型是否存在數(shù)據(jù)中毒漏洞時(shí),您可以了解可能添加的數(shù)據(jù)點(diǎn)并構(gòu)建丟棄此類(lèi)數(shù)據(jù)點(diǎn)的機(jī)制。

即使是看似微不足道的不良數(shù)據(jù)也會(huì)使機(jī)器學(xué)習(xí)模型失效。黑客已適應(yīng)利用這一弱點(diǎn)并破壞企業(yè)數(shù)據(jù)系統(tǒng)。隨著企業(yè)越來(lái)越依賴(lài)人工智能,他們必須保護(hù)機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)的安全性和隱私性,否則就有失去客戶(hù)信任的風(fēng)險(xiǎn)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2022-09-19
如何確保用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)安全?
隨著人工智能越來(lái)越融入我們的生活,人工智能系統(tǒng)中的網(wǎng)絡(luò)安全問(wèn)題也隨之而來(lái)

長(zhǎng)按掃碼 閱讀全文