圖靈測試已過時,是時候為AI構(gòu)建新計算基準了

Alexa的首席科學家認為,舊的計算基準與當今的AI時代不再相關(guān)。自艾倫·圖靈(Alan Turing)發(fā)表論文介紹圖靈測試的概念以回應“機器可以思考嗎?”這一問題以來,今年已經(jīng)是70年了。該測試的目的是確定一臺機器是否可以表現(xiàn)出與人類沒有區(qū)別的對話行為。Turing預測,到2000年,在模擬游戲中,從評估者中隱藏了正在做出響應的人(人類或AI),普通人將AI與人類區(qū)分開的機會不到70%。

作為一個行業(yè),為什么我們不能在實現(xiàn)這一目標的20年后實現(xiàn)這一目標?我相信Turing提出的目標對于像我這樣的AI科學家來說并不是一個有用的目標。圖靈測試充滿局限性,其中一些圖靈本人在開創(chuàng)性論文中對此進行了辯論。如今,人工智能已無處不在地集成到我們的電話,汽車和房屋中,人們越來越在乎與計算機的交互是有用,無縫和透明的,并且人們無法區(qū)分機器這一概念。因此,是時候退役已經(jīng)成為過去七年靈感的絕殺了,并提出了一個新的挑戰(zhàn),這一挑戰(zhàn)同樣會激發(fā)研究人員和從業(yè)人員。

圖靈測試和大眾的想象力
在引入圖靈測試之后的幾年中,圖靈測試成為了學術(shù)界的AI北極星。60年代和70年代最早的聊天機器人ELIZA和PARRY以通過測試為中心。就在2014年,聊天機器人Eugene Goostman宣稱它通過了圖靈測試,并欺騙了33%的判斷是人類。但是,正如其他人指出的那樣,愚弄30%的法官的門檻是任意的,即使到那時,勝利對某些人還是過時的。

盡管如此,圖靈測試仍在繼續(xù)引起人們的想象。OpenAI的剖成預先訓練變壓器3(GPT-3)語言模型已經(jīng)掀起頭條了解其潛在擊敗圖靈測試。同樣,記者,商業(yè)領(lǐng)袖和其他觀察員仍然問我:“ Alexa何時通過圖靈測試?” 當然,圖靈測試是衡量Alexa智力的一種方法,但是以這種方式衡量Alexa的智力是否必然且相關(guān)?

為了回答這個問題,讓我們回到圖靈第一次提出論文的時候。1950年,第一臺商用計算機尚未售出,光纜的基礎工作再也不會發(fā)布四年了,并且AI領(lǐng)域還沒有正式建立,那就是1956年。與Apollo 11相比,我們手機上的計算能力高出100,000倍,再加上云計算和高帶寬連接,人工智能現(xiàn)在可以在幾秒鐘內(nèi)根據(jù)大量數(shù)據(jù)做出決策。

盡管Turing的最初愿景繼續(xù)鼓舞人心,但將其測試解釋為AI進步的終極標志受到其引入時代的限制。首先,圖靈測試幾乎不考慮AI的類似計算機的快速計算和信息查找屬性,這是現(xiàn)代AI最有效的功能。對欺騙人類的強調(diào)意味著,要使AI通過圖靈的測試,它必須在回答“諸如您知道3434756的立方根是什么?”之類的問題時注入停頓。或者,“西雅圖到波士頓有多遠?” 實際上,AI會立即知道這些答案,而暫停使其答案聽起來更人性化并不是最佳地運用其技能。此外,圖靈測試沒有考慮到AI使用傳感器來聽,看和感覺外界的能力日益增強。相反,它僅限于文本。

為了使AI在今天變得更加有用,這些系統(tǒng)需要有效地完成我們的日常任務。如果您要讓AI助手關(guān)閉車庫燈,則不需要對話。相反,您希望它滿足該請求并通過簡單的確認(“確定”或“完成”)通知您。即使您與AI助手就某個熱門話題進行了廣泛的對話,或者向您的孩子朗讀了一個故事,您仍然想知道它是AI而不是人類。實際上,假裝為人類來“欺騙”用戶會構(gòu)成真正的風險。想象一下反烏托邦的可能性,就像我們已經(jīng)開始看到的那樣,機器人在播撒錯誤信息和出現(xiàn)大量假貨。

人工智能面臨的新挑戰(zhàn)
我們的抱負應該不是建立使AI與人類難以區(qū)分的迷戀,而是要建立以公平和包容的方式增強人類智力并改善我們?nèi)粘I畹腁I。一個有價值的基本目標是使AI展現(xiàn)類似于人類的智力屬性(包括常識,自我監(jiān)督和語言能力),并結(jié)合諸如快速搜索,記憶調(diào)用和代表您完成任務之類的機器效率。最終結(jié)果是學習和完成各種任務,并適應新的情況,這遠遠超出了普通人的能力。

該重點為當前對真正重要的AI領(lǐng)域的研究提供了信息-感官理解,交談,廣泛而深入的知識,有效的學習,決策推理以及消除任何不當偏見或偏見(即公平)。這些領(lǐng)域的進展可以通過多種方式衡量。一種方法是將挑戰(zhàn)分解為組成任務。例如,Kaggle的“抽象與推理挑戰(zhàn)”專注于解決AI以前從未見過的推理任務。另一種方法是為人機交互設計大規(guī)模的現(xiàn)實世界挑戰(zhàn),例如Alexa Prize Socialbot Grand Challenge,這是一項針對大學生對話式AI的競賽。

實際上,當我們在2016年啟動Alexa獎時,我們就如何評估競爭性“社交機器人”進行了激烈的辯論。我們是否在試圖說服人們,這個社交機器人是人,所以部署了圖靈測試的一個版本?或者,我們是否在努力使AI值得自然交流,以促進學習,提供娛樂或只是分散注意力呢?

我們發(fā)現(xiàn)了一個要求社交機器人與人類進行20分鐘的連貫對話的主題,涉及娛樂,體育,政治和技術(shù)等廣泛的熱門話題。在進入決賽之前的開發(fā)階段,客戶會根據(jù)是否希望再次與機器人對話對機器人進行評分。在決賽中,獨立的人類裁判會評估連貫性和自然性,并以5分制評分。如果有任何社交機器人在平均20分鐘的時間內(nèi)進行交流并且得分達到4.0或更高,那么它將滿足挑戰(zhàn)。盡管尚未解決嚴峻的挑戰(zhàn),但這種方法正在指導AI開發(fā),該開發(fā)具有基于深度學習的神經(jīng)方法所具有的類似于人的對話能力。

像Alexa這樣的AI在我們的日常生活中被廣泛采用,這是衡量AI進步的另一個難得的機會。盡管這些AI服務依賴于類人的會話技能來完成簡單的交易(例如設置警報)和復雜的任務(例如計劃一個周末),但要最大限度地發(fā)揮效用,它們會從會話式AI轉(zhuǎn)變?yōu)?ldquo;環(huán)境式AI”在需要時回答您的請求,預測您的需求,在不需要時淡入背景。例如,Alexa可以檢測到玻璃破碎的聲音,并提醒您采取措施。如果您在睡覺時設置了鬧鐘,則建議您關(guān)閉樓下已連接的連接燈。此類AI的另一個方面是,它們需要成為大量不斷增加的任務的專家,這只有在具有更廣泛的學習能力而非特定于任務的智能的情況下才有可能。因此,在接下來的十年及以后的時間里,AI服務的實用性以及在環(huán)境設備上的對話和主動幫助功能是一項值得測試的測試。

這些都不是to毀圖靈的最初愿景的-圖靈的“模仿游戲”被設計為一種思想實驗,而不是作為有用AI的最終測試。但是,現(xiàn)在是時候消除圖靈測試,并從艾倫·圖靈的大膽愿景中獲得啟發(fā),以加快構(gòu)建旨在幫助人類的AI的進展。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2020-12-31
圖靈測試已過時,是時候為AI構(gòu)建新計算基準了
Alexa的首席科學家認為,舊的計算基準與當今的AI時代不再相關(guān)。自艾倫·圖靈(Alan Turing)發(fā)表論文介紹圖靈測試的概念以回應“機器可以思考嗎?”這一

長按掃碼 閱讀全文