HEYZO高无码国产综合,动漫无遮挡h纯肉亚洲资源大片,小黄片下载安装

原標(biāo)題：DeepMind新成果：讓AI做了200萬道數(shù)學(xué)題，結(jié)果堪憂

在這個春光明媚的周末，一部分成年人卻不得不在人間歷劫——輔導(dǎo)孩子寫作業(yè)！其中，又以數(shù)學(xué)這門學(xué)科的殺傷力最為強(qiáng)大。

為了挽救在“拋家棄子”邊緣瘋狂試探的家長們，不少K12教育平臺也開始與時俱進(jìn)，相繼將人工智能加入了數(shù)學(xué)輔導(dǎo)豪華服務(wù)套餐。

在各種新聞中，AI數(shù)學(xué)老師的畫風(fēng)往往是這樣的：

羞辱學(xué)渣——只用10分鐘作答2017高考數(shù)學(xué)全國II卷，拿下100分（總分150分）， “蒙題”都沒這么快；

碾壓學(xué)霸——在日本的大學(xué)入學(xué)標(biāo)準(zhǔn)考試、SAT等各國“高考”中拿到了超過平均分的成績，向狀元挺近；

取代人類教師——可以依據(jù)人為輸入的打分條件，對照答案，在瞬間判斷正誤。效率比人類判卷老師高出好幾個指數(shù)級不說，失誤率也更低。

想必令不少家長都心動了吧。在這里，我們要掃興地說出一個真相——即使是目前最先進(jìn)的人工智能系統(tǒng)，數(shù)學(xué)水平恐怕連高中生都比不上。

DeepMind親自打臉：AI是個數(shù)學(xué)渣？

這年頭，靠AI判卷打分已經(jīng)不是什么新鮮事了，給張標(biāo)準(zhǔn)答案小學(xué)生都能干。但靠AI教做數(shù)學(xué)題，就很有技術(shù)含量了，考驗的則是閱讀、推理、計算、邏輯等等綜合能力，最起碼也得是個“新西方”名師上陣吧。

如果用后者的課時費(fèi)，請小學(xué)生來幫輔導(dǎo)作業(yè)，顯然大家都會認(rèn)為是開玩笑。但要是把小學(xué)生換成AI，反而令家長們“不明覺厲”喜掏腰包了。

不過，DeepMind的最新研究結(jié)果表明，即使是目前最先進(jìn)的AI系統(tǒng)，做起數(shù)學(xué)題來連普通高中生都比不過，是不是有點幻滅？

事情是這樣的，DeepMind參考英國16歲學(xué)齡兒童的數(shù)學(xué)考試，為AI（深度神經(jīng)網(wǎng)絡(luò)）打造了一個包含200萬道題目的題庫，涵蓋了算術(shù)、代數(shù)、概率、微積分等各種題型，并派出了循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 和Transformer兩位當(dāng)下性能最先進(jìn)的模型參與測試。

結(jié)果發(fā)現(xiàn)，除了四舍五入、加減法、比較大小、數(shù)字排序等等簡單問題之外，在一些涉及因式分解、混合計算之類的高級題目上，AI的表現(xiàn)都不如人類高中生，連及格線都沒達(dá)到。

到底咋回事，看看它們是怎么做題的就知道了。

LSTM和Transformer架構(gòu)都包含一個編碼器和解碼器。不過在具體運(yùn)算邏輯上，LSTM會將問題編碼為一系列由鍵和數(shù)值代表的具體位置（41+132），然后解碼器將下一個字符預(yù)測并映射出來（173）。

由于有注意力機(jī)制的參與，LSTM能夠預(yù)先處理一些邏輯上需要先完成的對象，比如知道在計算8 /（1 + 3）時，應(yīng)該先算出（1 + 3），這已經(jīng)有點接近人類進(jìn)行運(yùn)算時的推理步驟了。

Transformer的不同之處在于，它的編碼器能夠把數(shù)學(xué)題轉(zhuǎn)換成一個長度相同的序列，然后通過注意力機(jī)制與位置完全連接的層嵌入任意數(shù)學(xué)表達(dá)式，然后進(jìn)行轉(zhuǎn)換。

這樣做的好處是，Transformer能夠使用相同數(shù)量的參數(shù)進(jìn)行更多的計算（改變嵌入函數(shù)就可以了），同時擁有了連續(xù)的“內(nèi)部記憶”，在處理包含多層級、關(guān)聯(lián)性的混合運(yùn)算時更有優(yōu)勢，能夠在更長的序列上給出正確答案。

計算方式搞清楚了，那么兩位模型的最終成績?nèi)绾文兀?/p>

答案是，非常慘。Transformer模型只答對了14/40個問題，也就相當(dāng)于E級水平。相比之下LSTM的分?jǐn)?shù)就更慘不忍睹了，放在人類學(xué)生身上絕對是要被叫家長的節(jié)奏。

（各個模型處理的參數(shù)規(guī)模和平均正確率）

AI學(xué)數(shù)學(xué)，到底難在哪兒？

一度在計算能力、決策效率上被AI按在地板上摩擦的人類，總算在數(shù)學(xué)上挽尊了，DeepMind可算也打臉一次AI了。不過，沾沾自喜不是重點，重點是如果要為AI建立一本數(shù)學(xué)錯題集的話，這次實驗究竟有哪些值得被記住和補(bǔ)上的短板：

其一是記性太差。

盡管研究人員引入了LTSM和transformer，這是兩個在處理機(jī)器翻譯等序列問題時表現(xiàn)優(yōu)異的拳頭選手，但依然抵不住數(shù)學(xué)問題的復(fù)雜性和語言多樣性的壓力。在一些需要中間值計算的模塊中，比如因式分解、多項式函數(shù)等等，系統(tǒng)在進(jìn)行“思考”時記憶力明顯不夠用，符號的遷移性和知識的擴(kuò)展性也因此大受影響，直接影響了結(jié)果的準(zhǔn)確性。

比如Transformer在計算單純的加減法或乘除法時，準(zhǔn)確率高達(dá)90%，一旦加減乘除混合在一起，它就有點搞不清先后順序了，正確率就下降到只有50%。這表現(xiàn)連計算器都比不上，說明一旦要拼記性、背函數(shù)，機(jī)器就比不上人類了。

另外，有算力，沒知識。

人類在解決數(shù)學(xué)問題時，應(yīng)用到的不只有計算能力，還有各種各樣的認(rèn)知技能。比如理解題干，需要將文字或圖標(biāo)轉(zhuǎn)換為算術(shù)運(yùn)算符；確定解題思路，需要進(jìn)行推理，從已知的公理中找到最佳策略；具體的運(yùn)算過程中，必須利用工作記憶來完成運(yùn)算；保持成績的穩(wěn)定性，就需要將已學(xué)到的知識和規(guī)則遷移到同一類型的問題中去……

顯然，神經(jīng)網(wǎng)絡(luò)還沒有辦法在“舉一反三”的能力上與人類一較高下，它只能處理一些內(nèi)部存儲的問題，無法超越已有的環(huán)境去理解新的東西。具體到各個實驗項目中，知識遷移能力越強(qiáng)的模型，在統(tǒng)一數(shù)據(jù)集上的數(shù)學(xué)成績也就越好。

這些短板歸根結(jié)底，是由數(shù)學(xué)問題和工程效率的矛盾所導(dǎo)致的。

數(shù)學(xué)的本質(zhì)是演繹證明，往往需要架設(shè)問題并根據(jù)已知抽象出新概念，根據(jù)需要提出新的公理體系。這是一個基于推斷的極其復(fù)雜的“規(guī)則游戲”。

而機(jī)器的計算模式則是遍歷型、經(jīng)驗型的，即通過大規(guī)模數(shù)據(jù)來窮盡所有可能。

用DeepMind研究人員的話來說，數(shù)學(xué)包含了一個“自洽的宇宙”（self-consistent universe），“簡單的AI系統(tǒng)”想要挑戰(zhàn)數(shù)學(xué)命題，顯然不太可能。

以“博雷爾-確定性”（Borel-determinacy）為例，雖然只是一個二階算術(shù)命題，但其證明卻需要用到無窮階的算術(shù)。想要解決此類問題，就必須把AI系統(tǒng)設(shè)計得足夠?qū)挿?，以至于能包容絕大部分?jǐn)?shù)學(xué)運(yùn)算。這時的規(guī)則量級與復(fù)雜性，就不是圍棋這種程度可比的了，而可能是在1T個2^中尋找一個最優(yōu)決策。這時候AI的對手就不是數(shù)學(xué)，而是資源、金錢與時間了。

AI解題：到底應(yīng)該懷抱怎樣的理想期待

說了這么多，用數(shù)學(xué)水平作為AI的“智商鑒定器”顯然有失偏頗，AI也不可能幫助人類解決那些數(shù)學(xué)領(lǐng)域的未解之謎。既然如此，讓AI學(xué)數(shù)學(xué)的意義到底是什么？或許我們必須重新理解二者的關(guān)系。

從當(dāng)前背景來看，提高AI的數(shù)學(xué)能力大概有兩方面的積極作用：

一個是技術(shù)層面的，人工智能本質(zhì)上就是一個將數(shù)學(xué)、算法和工程實踐緊密結(jié)合的領(lǐng)域，對數(shù)學(xué)的探索有利于推動AI技術(shù)的全面進(jìn)步。

舉個例子，早在1964年，就有科學(xué)家試圖讓計算機(jī)做數(shù)學(xué)題了，當(dāng)時提出的STUDENT（Bobrow 1964）系統(tǒng)，就是輸入一段規(guī)定好描述方式的數(shù)學(xué)題，然后把自然語言（linguistic form）通過模式匹配映射到對應(yīng)的函數(shù)關(guān)系表達(dá)。就像把“籠子里有一只雞和一只兔，問籠子里一共有幾只動物”轉(zhuǎn)換成“1+1=？”。這說明，數(shù)學(xué)要取得好成績，先得自然語言閱讀理解能力過關(guān)。

舉個例子，就因為沒有辦法將復(fù)雜的題目轉(zhuǎn)換成規(guī)范化的數(shù)學(xué)語言，國立情報學(xué)研究所不得不在2016年放棄讓人工智能系統(tǒng)Torobo-kun參加?xùn)|京大學(xué)入學(xué)考試，2017年中國的“高考機(jī)器人” (863計劃中的類人智能項目)在對戰(zhàn)真人（43名高三文科班學(xué)生）時，也以低于人類平均分的成績落敗。

除了文字題干之外，有的題目還會涉及語音識別、圖像識別（看圖解題）等技術(shù)能力。換句話說，想要搞定數(shù)學(xué)題，語文課、邏輯課，一科都不能偏！

另一個可能受益的則是社會層面的，針對數(shù)學(xué)的研究成果，能夠有效提升各個人工智能系統(tǒng)在理科解題上的弱勢，直接提高知識引擎的性能與效率。

尤其是現(xiàn)在包括綜合搜索、XX搜題等在內(nèi)的各類知識問答平臺，已經(jīng)成為為人們答疑解惑的主要工具。數(shù)學(xué)解題系統(tǒng)更成了K12教育爭先恐后推出的“殺手锏”。但想要提供高品質(zhì)的數(shù)學(xué)搜索服務(wù)，比如輸入數(shù)學(xué)題，就能精準(zhǔn)還原出數(shù)學(xué)模型、解題步驟以及答案，并不是一件簡單的事。

前面我們也說過，數(shù)學(xué)問題并不僅僅只考驗計算能力，還涉及泛化知識庫的大量規(guī)則，比下圍棋的黑白子規(guī)則可復(fù)雜多了，有時還要面對價值觀、意識形態(tài)、藝術(shù)等很多不可量化的東西。平臺們預(yù)先內(nèi)置的數(shù)學(xué)知識模型在越來越數(shù)字化的學(xué)習(xí)方式面前，搜不到、不匹配、答案“略”，甚至直接用習(xí)題冊答案湊數(shù)的情況，也已經(jīng)屢見不鮮。

更有甚至，一旦用戶輸入的問題不符合預(yù)定義的模式匹配規(guī)則，可能機(jī)器就會開始“誤人子弟”瞎答了。

如果解題類應(yīng)用的數(shù)學(xué)水平始終在及格方面徘徊，連看懂題和正確率都無法保證，還怎么能指望AI系統(tǒng)從學(xué)生們的答卷中分析出失分原因并指導(dǎo)其進(jìn)一步學(xué)習(xí)呢呢？？所謂的靠它降低學(xué)習(xí)門檻、實現(xiàn)教育普惠和公平，顯然也只能停留在幻想層面。

提升AI模型的數(shù)學(xué)能力，進(jìn)而增強(qiáng)搜題模型的整體性能，對于眾多互聯(lián)網(wǎng)教育平臺和家長考生們來說，意義自然是重大的。

同時，數(shù)學(xué)本身也是學(xué)習(xí)（包括機(jī)器學(xué)習(xí)）的起點。

盡管大多數(shù)數(shù)學(xué)問題無法直接被應(yīng)用，但在尋求驗證和推理的過程中，往往會誕生的更強(qiáng)大的推理模型，為更高的機(jī)器智能打下堅實的基礎(chǔ)。

舉個例子，MIT 于2014年在ACL上提出了一種基于統(tǒng)計學(xué)習(xí)的方法KAZB，根據(jù)公式的標(biāo)注把數(shù)學(xué)題歸類成不同的題型，抽取題目中不同層次的特征，來自動判斷題型。

該方法的缺點則是系統(tǒng)沒有辦法識別出訓(xùn)練集之外的題型。為了解決這個問題，百度和微軟的研究團(tuán)隊分別進(jìn)行了優(yōu)化和改進(jìn)，實現(xiàn)了10%左右的性能提升。

換句話說，提高神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)能力，雖然不是全部，但卻能夠為機(jī)器推理能力打下堅實的基礎(chǔ)。這就像人類小孩學(xué)習(xí)“雞兔同籠”一樣，不是真的為了方便在成年后數(shù)清楚雞和兔子，而是在這個過程中逐漸學(xué)會用一種新的思維模式去理解和認(rèn)知世界。

或許等到那一天，我們需要擔(dān)心的就不是機(jī)器會做錯題，而是人類將無題可做了……

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

DeepMind新成果：讓AI做了200萬道數(shù)學(xué)題，結(jié)果堪憂

下一篇

DeepMind新成果：讓AI做了200萬道數(shù)學(xué)題，結(jié)果堪憂