人工智能和機器學(xué)習(xí)中數(shù)據(jù)集的3大問題

原標題:人工智能和機器學(xué)習(xí)中數(shù)據(jù)集的3大問題

數(shù)據(jù)集為人工智能模型提供燃料,就像汽油(或電力,視情況而定)為汽車提供燃料。無論它們的任務(wù)是生成文本、識別物體,還是預(yù)測公司的股票價格,人工智能系統(tǒng)都是通過篩選無數(shù)的例子來 "學(xué)習(xí)",以辨別數(shù)據(jù)中的模式。例如,計算機視覺系統(tǒng)可以被訓(xùn)練成通過觀察某些類型的服裝(如大衣和圍巾)的不同圖像來識別該服裝。

除了開發(fā)模型,數(shù)據(jù)集還被用來測試訓(xùn)練有素的人工智能系統(tǒng),以確保它們保持穩(wěn)定--并衡量該領(lǐng)域的整體進展。在某些開源基準上名列前茅的模型被認為是該特定任務(wù)的技術(shù)水平(SOTA)。事實上,這是研究人員確定一個模型的預(yù)測強度的主要方式之一。

但這些人工智能和機器學(xué)習(xí)數(shù)據(jù)集--就像設(shè)計它們的人類一樣--并不是沒有缺陷的。研究表明,偏見和錯誤給許多用于訓(xùn)練、基準和測試模型的圖書館蒙上了陰影,突出了對未經(jīng)徹底審查的數(shù)據(jù)給予過多信任的危險性--即使這些數(shù)據(jù)來自于知名機構(gòu)。

1. 訓(xùn)練的困境

在人工智能領(lǐng)域,基準測試需要比較為同一任務(wù)設(shè)計的多個模型的性能,比如在語言之間翻譯單詞。在理論上,這種做法--起源于探索人工智能早期應(yīng)用的學(xué)者--具有將科學(xué)家圍繞共同問題組織起來的優(yōu)勢,同時有助于揭示已經(jīng)取得了多少進展。

但是,在數(shù)據(jù)集選擇方面變得也有風(fēng)險。例如,如果相同的訓(xùn)練數(shù)據(jù)集被用于多種任務(wù),那么數(shù)據(jù)集就不可能準確反映模型在現(xiàn)實世界中看到的數(shù)據(jù)。錯誤的數(shù)據(jù)集會扭曲對科學(xué)進步的衡量,導(dǎo)致研究人員認為他們做得比實際要好--并對現(xiàn)實世界中的人們造成傷害。

加州大學(xué)洛杉磯分校的研究人員和谷歌在最近發(fā)表的一項題為 "減少、重復(fù)使用和回收 "的研究中調(diào)查了這個問題。機器學(xué)習(xí)研究中數(shù)據(jù)集的壽命"。他們發(fā)現(xiàn),在機器學(xué)習(xí)中存在 "大量借用 "數(shù)據(jù)集的情況--例如,從事一項任務(wù)的社區(qū)可能會借用為另一項任務(wù)創(chuàng)建的數(shù)據(jù)集--這引起了對錯位的擔憂。他們還表明,只有十幾所大學(xué)和公司負責創(chuàng)建機器學(xué)習(xí)中50%以上時間使用的數(shù)據(jù)集,表明這些機構(gòu)正在有效地塑造該領(lǐng)域的研究議程。

"追逐SOTA是不好的做法,因為有太多的混雜變量,SOTA通常并不意味著什么,而科學(xué)的目標應(yīng)該是積累知識,而不是特定玩具基準的結(jié)果,"谷歌大腦團隊的前駐場人員丹尼-布里茨在之前的采訪中告訴媒體。"已經(jīng)有了一些改進的舉措,但是尋找SOTA是審查和評估論文的一種快速而簡單的方法。像這樣的事情已經(jīng)嵌入到文化中,需要時間來改變"。

對于他們的觀點,ImageNet和Open Images--來自斯坦福和谷歌的兩個公開可用的圖像數(shù)據(jù)集--在很大程度上是以美國和歐洲為中心的。在這些數(shù)據(jù)集上訓(xùn)練的計算機視覺模型在來自第三世界國家的圖像上表現(xiàn)更差。例如,與來自美國的新郎相比,這些模型對來自埃塞俄比亞和巴基斯坦的新郎的分類準確率較低,而且當這些圖像來自第三世界方時,它們不能正確識別諸如 "婚禮 "或 "調(diào)味品 "這樣的物體。

甚至南北半球太陽路徑的差異和背景景物的變化也會影響模型的準確性,相機型號的不同規(guī)格如分辨率和長寬比也會影響模型的準確性。天氣條件是另一個因素--如果一個無人駕駛汽車系統(tǒng)只在陽光明媚的熱帶環(huán)境的數(shù)據(jù)集上進行訓(xùn)練,那么它在遇到雨雪天氣時的表現(xiàn)就會很差。

麻省理工學(xué)院的一項最新研究顯示,包括ImageNet在內(nèi)的計算機視覺數(shù)據(jù)集包含有問題的 "無意義 "信號。在這些數(shù)據(jù)集上訓(xùn)練的模型受到 "過度解釋 "的影響,這種現(xiàn)象是它們以高置信度對缺乏細節(jié)的圖像進行分類,以至于它們對人類來說毫無意義。這些信號在現(xiàn)實世界中會導(dǎo)致模型的脆弱性,但它們在數(shù)據(jù)集中是有效的--這意味著過度解釋無法用典型的方法來識別。

"麻省理工學(xué)院博士生、該研究的主要作者布蘭登-卡特(Brandon Carter)在一份聲明中說:"有一個問題是,我們?nèi)绾文軌蛞砸环N方式修改數(shù)據(jù)集,使模型能夠被訓(xùn)練成更接近于模仿人類對圖像分類的思考方式,因此,希望在這些現(xiàn)實世界的場景中,如自動駕駛和醫(yī)療診斷,能夠更好地進行概括,以便模型不會有這種無意義的行為。

歷史上充滿了部署使用有缺陷的數(shù)據(jù)集訓(xùn)練的模型的后果的例子,比如虛擬背景和照片剪裁工具,這些工具不喜歡皮膚較黑的人。2015年,一名軟件工程師指出,谷歌照片中的圖像識別算法將他的黑人朋友標記為 "大猩猩"。非營利組織AlgorithmWatch顯示,谷歌的云端視覺API曾一度將黑人持有的溫度計標記為 "槍",而將淺膚色人持有的溫度計標記為 "電子設(shè)備"。

模糊的數(shù)據(jù)集還導(dǎo)致了使性別歧視的招聘和雇用、年齡歧視的廣告定位、錯誤的評分以及種族主義的累犯和貸款審批長期存在的模式。這個問題延伸到醫(yī)療保健領(lǐng)域,其中包含醫(yī)療記錄和圖像的訓(xùn)練數(shù)據(jù)集大多來自北美、歐洲和中國的患者--這意味著模型不太可能對代表性不足的群體產(chǎn)生良好的效果。這種不平衡在入店行竊者和武器識別的計算機視覺模型、工作場所安全監(jiān)控軟件、槍聲檢測系統(tǒng)和 "美化 "過濾器中很明顯,它們放大了訓(xùn)練數(shù)據(jù)中存在的偏見。

專家們將面部識別、語言和語音識別系統(tǒng)中的許多錯誤也歸因于用于訓(xùn)練模型的數(shù)據(jù)集的缺陷。例如,馬里蘭大學(xué)的研究人員發(fā)現(xiàn),亞馬遜、微軟和谷歌的面部識別服務(wù)更有可能在年齡較大、皮膚較黑的人和那些不太 "女性化 "的人身上失敗。根據(jù)算法正義聯(lián)盟的聲音消除項目,蘋果、亞馬遜、谷歌、IBM和微軟的語音識別系統(tǒng)對黑人聲音的單詞錯誤率合計達到35%,而對白人聲音的錯誤率為19%。而且,語言模型已被證明表現(xiàn)出對種族、民族、宗教和性別的偏見,將黑人與更多的負面情緒聯(lián)系在一起,并與 "與黑人結(jié)盟的英語 "作斗爭。

"加州大學(xué)洛杉磯分校的Bernard Koch和Jacob G. Foster以及谷歌的Emily Denton和Alex Hanna是 "減少、再利用和回收 "一書的共同作者,他們通過電子郵件告訴媒體,"數(shù)據(jù)[在某些情況下]是從網(wǎng)絡(luò)上的許多不同地方刮來的,而這些網(wǎng)絡(luò)數(shù)據(jù)反映了與霸權(quán)主義意識形態(tài)(例如白人和男性主導(dǎo)地位)相同的社會層面的偏見和偏差。"更大的......模型需要更多的訓(xùn)練數(shù)據(jù),而且一直在努力清理這些數(shù)據(jù),防止模型放大這些有問題的想法。"

2. 標簽的問題

標簽是許多模型學(xué)習(xí)數(shù)據(jù)關(guān)系的注釋,它也帶有數(shù)據(jù)不平衡的特征。人類對訓(xùn)練和基準數(shù)據(jù)集中的例子進行注釋,在狗的圖片上添加 "狗 "這樣的標簽,或者描述風(fēng)景圖片中的特征。但是注釋者會帶來他們自己的偏見和缺點,這可能會轉(zhuǎn)化為不完美的注釋。

例如,研究表明,一般的注釋者更有可能將非裔美國人方言英語(AAVE),即一些美國黑人使用的非正式語法、詞匯和口音的短語標記為有毒。在另一個例子中,麻省理工學(xué)院和紐約大學(xué)的8000萬張微小圖片數(shù)據(jù)集--該數(shù)據(jù)集于2020年下線--的一些標注者貢獻了種族主義、性別歧視和其他攻擊性的注釋,包括近2000張標注有N字的圖片以及 "強奸嫌疑人 "和 "兒童騷擾者 "等標簽。

2019年,《連線》報道了亞馬遜Mechanical Turk等平臺--許多研究人員在這里招募注釋者--對自動機器人的易感性。即使工人是可核實的人類,他們的動機是報酬而不是興趣,這可能會導(dǎo)致低質(zhì)量的數(shù)據(jù)--特別是當他們受到惡劣的待遇和低于市場價格的報酬。包括Niloufar Salehi在內(nèi)的研究人員已經(jīng)嘗試通過Dynamo這樣的開放性工人集體來解決亞馬遜Mechanical Turk的缺陷,但他們能做的只有這么多。

作為人類,注釋者也會犯錯誤--有時是重大錯誤。在麻省理工學(xué)院對包括ImageNet在內(nèi)的流行基準的分析中,研究人員發(fā)現(xiàn)了錯誤的圖像標簽(如一個品種的狗被混淆為另一個品種),文本情感(如亞馬遜產(chǎn)品評論被描述為負面,而實際上是正面),以及YouTube視頻的音頻(如Ariana Grande的高音被歸為口哨)。

一個解決方案是推動建立更具包容性的數(shù)據(jù)集,如MLCommons的人民語音數(shù)據(jù)集和多語種口語語料庫。但是策劃這些數(shù)據(jù)集既費時又費錢,其價格往往高達數(shù)百萬美元。Mozilla努力建立一個開源的轉(zhuǎn)錄語音數(shù)據(jù)集,自2017年推出以來,只審核了幾十種語言--說明了這一挑戰(zhàn)。

創(chuàng)建一個數(shù)據(jù)集如此昂貴的原因之一是高質(zhì)量注釋所需的領(lǐng)域?qū)I(yè)知識。正如Synced在最近的一篇文章中指出的那樣,大多數(shù)低成本的標簽器只能注釋相對 "低語境 "的數(shù)據(jù),不能處理 "高語境 "的數(shù)據(jù),如法律合同分類、醫(yī)學(xué)圖像或科學(xué)文獻。事實表明,司機往往比沒有駕照的人更有效地標注自駕游數(shù)據(jù)集,醫(yī)生、病理學(xué)家和放射科醫(yī)生在準確標注醫(yī)療圖像方面表現(xiàn)更好。

機器輔助工具可以在一定程度上幫助消除標簽過程中的一些重復(fù)性工作。其他方法,如半監(jiān)督學(xué)習(xí),有望減少訓(xùn)練模型所需的數(shù)據(jù)量,使研究人員能夠在為特定任務(wù)設(shè)計的小型定制數(shù)據(jù)集上 "微調(diào) "模型。例如,在本周發(fā)表的一篇博文中,OpenAI說,它設(shè)法對GPT-3進行了微調(diào),通過復(fù)制人類在網(wǎng)上研究問題的答案(例如,提交搜索查詢、跟蹤鏈接和上下滾動頁面)來更準確地回答開放式問題,并引用其來源,允許用戶提供反饋以進一步提高準確性。

還有一些方法旨在用部分或完全的合成數(shù)據(jù)取代真實世界的數(shù)據(jù)--盡管在合成數(shù)據(jù)上訓(xùn)練的模型是否能與真實世界的數(shù)據(jù)對應(yīng)的準確性相媲美,目前還沒有定論。麻省理工學(xué)院和其他地方的研究人員已經(jīng)試驗過在視覺數(shù)據(jù)集中單獨使用隨機噪聲來訓(xùn)練物體識別模型。

從理論上講,無監(jiān)督學(xué)習(xí)可以一勞永逸地解決訓(xùn)練數(shù)據(jù)的難題。在無監(jiān)督學(xué)習(xí)中,一個算法被置于 "未知 "數(shù)據(jù)中,這些數(shù)據(jù)不存在先前定義的類別或標簽。但是,雖然無監(jiān)督學(xué)習(xí)在缺乏標簽數(shù)據(jù)的領(lǐng)域表現(xiàn)出色,但這并不是一個弱點。例如,無監(jiān)督的計算機視覺系統(tǒng)可以在未標記的訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)種族和性別的定型觀念。

3. 一個基準問題

人工智能數(shù)據(jù)集的問題并不停留在訓(xùn)練上。在維也納人工智能和決策支持研究所的一項研究中,研究人員發(fā)現(xiàn)3800多篇人工智能研究論文的基準不一致--在許多情況下,可歸因于沒有強調(diào)信息指標的基準。Facebook和倫敦大學(xué)學(xué)院的另一篇論文顯示,在 "開放領(lǐng)域 "基準上測試的自然語言模型給出的60%到70%的答案隱藏在訓(xùn)練集的某個地方,這意味著模型只是記住了這些答案。

在紐約大學(xué)AI Now研究所的技術(shù)研究員Deborah Raji共同撰寫的兩項研究中,研究人員發(fā)現(xiàn)像ImageNet這樣的基準經(jīng)常被 "錯誤地抬高",以證明超出其最初設(shè)計的任務(wù)的說法。據(jù)Raji和其他合著者稱,這還不包括 "數(shù)據(jù)集文化 "會扭曲機器學(xué)習(xí)研究的科學(xué)性--缺乏對數(shù)據(jù)主體的關(guān)懷文化,造成惡劣的勞動條件(比如注釋者的低工資),同時對那些數(shù)據(jù)被有意或無意地卷進數(shù)據(jù)集的人沒有充分保護。

一些針對特定領(lǐng)域的基準問題的解決方案已經(jīng)被提出,包括艾倫研究所的GENIE。與眾不同的是,GENIE同時包含了自動和手動測試,讓人類評估人員根據(jù)預(yù)定義的、針對數(shù)據(jù)集的流暢性、正確性和簡潔性的準則來探測語言模型。雖然GENIE價格昂貴--提交一個模型進行基準測試的費用約為100美元--但艾倫研究所計劃探索其他支付模式,例如要求科技公司支付費用,同時為小型組織提供費用補貼。

在人工智能研究界也有越來越多的共識,即如果基準要發(fā)揮作用,特別是在語言領(lǐng)域,必須考慮到更廣泛的道德、技術(shù)和社會挑戰(zhàn)。一些語言模型有很大的碳足跡,但盡管對這個問題有廣泛的認識,相對來說,很少有研究人員試圖估計或報告他們系統(tǒng)的環(huán)境成本。

"Koch、Foster、Denton和Hanna說:"只關(guān)注最先進的性能,并不強調(diào)其他重要的標準,這些標準能體現(xiàn)出重大的貢獻。"[例如,]SOTA基準測試鼓勵創(chuàng)建對環(huán)境不友好的算法。建立更大的模型是提高機器學(xué)習(xí)性能的關(guān)鍵,但從長遠來看,它在環(huán)境上也是不可持續(xù)的......SOTA基準測試[也]不鼓勵科學(xué)家對他們的任務(wù)在現(xiàn)實世界中提出的具體挑戰(zhàn)有細微的理解,反而會鼓勵對提高分數(shù)的隧道視野。實現(xiàn)SOTA的要求限制了新的算法或能夠解決現(xiàn)實世界問題的算法的創(chuàng)造。"

可能的AI數(shù)據(jù)集解決方案

鑒于人工智能數(shù)據(jù)集的廣泛挑戰(zhàn),從不平衡的訓(xùn)練數(shù)據(jù)到不充分的基準,實現(xiàn)有意義的改變并不容易。但專家們認為,情況并非毫無希望。

普林斯頓大學(xué)計算機科學(xué)家Arvind Narayanan寫了幾篇調(diào)查人工智能數(shù)據(jù)集出處的文章,他說,研究人員必須采取負責任的方法,不僅要收集和注釋數(shù)據(jù),還要記錄他們的數(shù)據(jù)集,維護它們,并制定數(shù)據(jù)集設(shè)計的問題。在他最近與人合著的一項研究中,Narayanan發(fā)現(xiàn)許多數(shù)據(jù)集容易出現(xiàn)管理不善的情況,創(chuàng)建者未能在許可證語言中準確說明如何使用他們的數(shù)據(jù)集或禁止?jié)撛诘目梢捎猛尽?/p>

"他通過電子郵件告訴媒體:"研究人員應(yīng)該考慮他們的數(shù)據(jù)集的不同使用方式......負責任的數(shù)據(jù)集'管理',正如我們所說,需要解決更廣泛的風(fēng)險。他通過電子郵件告訴媒體:"一個風(fēng)險是,即使一個數(shù)據(jù)集是為了一個看似良性的目的而創(chuàng)建的,它也可能在無意中被用于可能造成傷害的方式。數(shù)據(jù)集可能被重新利用,用于道德上可疑的研究應(yīng)用?;蛘?,數(shù)據(jù)集可能被用來訓(xùn)練或衡量一個商業(yè)模型,而它并不是為這些高風(fēng)險環(huán)境設(shè)計的。數(shù)據(jù)集的創(chuàng)建通常需要大量的工作,因此研究人員和從業(yè)人員通常希望利用已有的數(shù)據(jù)。負責任的數(shù)據(jù)集管理的目標是確保這樣做是符合道德的"。

科赫和共同作者認為,人們--和組織--需要得到獎勵和支持,以便為手頭的任務(wù)創(chuàng)造新的、多樣化的數(shù)據(jù)集。他們說,需要激勵研究人員在像NeurIPS這樣的學(xué)術(shù)會議上使用 "更合適的 "數(shù)據(jù)集,并鼓勵他們進行更多的定性分析--比如他們模型的可解釋性--以及報告公平性(盡可能)和功率效率等指標。

NeurIPS--世界上最大的機器學(xué)習(xí)會議之一--規(guī)定提交論文的合作者必須說明他們的工作對社會的 "潛在廣泛影響",從去年的NeurIPS 2020開始?;厣那闆r有好有壞,但科赫和合作者認為,這是向正確方向邁出的一小步。

"機器學(xué)習(xí)研究人員正在創(chuàng)造大量的數(shù)據(jù)集,但它們并沒有得到使用。他們說:"這里的一個問題是,許多研究人員可能覺得他們需要包括廣泛使用的基準,以使他們的論文具有可信度,而不是一個更小眾但技術(shù)上合適的基準。"此外,專業(yè)的激勵措施需要向創(chuàng)建這些數(shù)據(jù)集的方向看齊......我們認為研究界仍有一部分人對道德改革持懷疑態(tài)度,解決科學(xué)問題可能是讓這些人支持機器學(xué)習(xí)評估改革的不同方式。"

數(shù)據(jù)集注釋問題沒有簡單的解決方案--假設(shè)標簽最終不會被替代物所取代。但谷歌最近的一篇論文表明,研究人員最好與注釋者建立 "擴展的溝通框架",如聊天應(yīng)用程序,以提供更有意義的反饋和更清晰的指示。同時,他們必須努力承認(并實際考慮)工人的社會文化背景,共同作者寫道--無論是從數(shù)據(jù)質(zhì)量還是社會影響的角度。

該論文更進一步,為數(shù)據(jù)集任務(wù)的制定和選擇注釋者、平臺和標簽基礎(chǔ)設(shè)施提供建議。共同作者說,除了審查數(shù)據(jù)集的預(yù)期使用情況外,研究人員應(yīng)該考慮可以通過注釋納入的專業(yè)知識形式。他們還說,他們應(yīng)該比較和對比不同平臺的最低工資要求,并分析不同群體的注釋者之間的分歧,讓他們--希望--更好地了解不同的觀點是如何被代表或不被代表的。

"如果我們真的想使使用中的基準多樣化,政府和企業(yè)的參與者需要為數(shù)據(jù)集的創(chuàng)建創(chuàng)建撥款,并將這些撥款分配給資源不足的機構(gòu)和來自代表不足的背景的研究人員,"科赫和共同作者說。"我們想說的是,現(xiàn)在有大量的研究表明,機器學(xué)習(xí)中的數(shù)據(jù)濫用會產(chǎn)生倫理問題和社會危害......科學(xué)家們喜歡數(shù)據(jù),所以我們認為,如果我們能向他們展示過度使用對科學(xué)來說并不是好事,這可能會刺激進一步的改革,也能減輕社會危害。"

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-12-20
人工智能和機器學(xué)習(xí)中數(shù)據(jù)集的3大問題
"麻省理工學(xué)院博士生、該研究的主要作者布蘭登-卡特(Brandon Carter)在一份聲明中說:"有一個問題是,我們?nèi)绾文軌蛞砸环N方式修改數(shù)據(jù)集,使模型能夠被訓(xùn)練成更接近于模仿人類對圖像分類的思考

長按掃碼 閱讀全文