過去兩天,高考成為了社會各界廣泛關注的話題,但與往年相比,由于今年AI大模型風靡全球,使得高考試卷也成為了檢測AI大模型“智商”的試金石。對于人類而言,IQ越高的人大多數學越強,這是因為數學考驗的是一個人的理解和推理能力,甚至很多檢測IQ的題目就是數學題,對于大模型也是如此,數學能力高低也能反映一個大模型是否“聰明”。
那么這次的高考數學題能否難倒AI大模型呢?根據搜狐科技、量子位等權威科技媒體對ChatGPT、訊飛星火、文心一言、通義千問、360智腦等主流AI大模型的橫向評測,訊飛星火居然力壓群雄,成為了解題正確率最高、“最聰明”的AI大模型。
先來看下搜狐科技的測試方法,他們選擇了2023年高考數學試卷的前10道填空題,讓五款AI大模型輪番進行回答。仔細看這10道填空題,既包括了不等式解方程解,圓形方程解和三角形方程解,還包括了GDP逐季度遞增的解法,非常全面地考驗了人類的數學計算能力,而“智力超群”的AI大模型面對高考數學題會怎樣?
根據搜狐科技得出的結論,訊飛星火答對了5道題,正確率為50%;ChatGPT和文心一言答對了4道題,正確率為40%;其他兩個大模型一道題都沒答對,等同于交了“白卷”。
接下來我們再來看量子位對五款大模型的測試,他們去掉了360智腦,但新增了公認最強的GPT-4。在 “已知函數 f ( x ) = cos ω x -1 (ω>0 ) 在區(qū)間 [0,2 π] 有且僅有3個零點 , 則ω的取值范圍是?”這道題的求解中,GPT-4給出了ω的取值范圍是(0,1/2]U{1}的錯誤答案。隨后其余的大模型也可謂是“全軍覆沒”,它們都給出了錯誤的答案。
唯獨只有訊飛星火給出了正確的答案。量子位的測試編輯心情悲喜交加地表示道:“本已經抱著再一次全軍覆沒的心情了,沒想到中文大模型(訊飛星火)力挽狂瀾!”
后來在三角函數題中,訊飛星火第一小問答案對了,但是步驟中出現(xiàn)了偏差,這說明訊飛星火在數學能力上還有改進空間。估計在6月9日科大訊飛發(fā)布星火V1.5之后,這種數學計算的小bug會得以修復。
最終量子位同樣制作了一張橫評匯總表,結果顯示GPT-4在排列組合、立體幾何和三角函數三道天空題中只有一道答對,在三角函數解答題中回答錯誤。而訊飛星火同樣答對了一道填空題,但在三角函數解答題中答對了一問。而其余大模型完全就是“陪跑”,沒有答對任何一道數學題。
訊飛星火數學能力一直是其優(yōu)勢之一,據悉,6月9日訊飛星火迎來V1.5迭代,不僅會在數學能力方面再上新臺階,還會在開放式問答、多輪對話方面明顯升級,并在文本生成、語言理解和邏輯推理能力上持續(xù)提升。按照科大訊飛公布的三輪迭代時間表,看來星火將在10月24日實現(xiàn)中文超越ChatGPT、英文旗鼓相當的目標應該可以踏踏實實地一步一個腳印地抵達!
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )