研究發(fā)現(xiàn),大模型不懂時(shí)間

多模態(tài)大模型在解讀鐘表和日歷時(shí)頻頻失手。本文通過(guò)ClockQA與CalendarQA數(shù)據(jù)集,揭示其視覺(jué)識(shí)別與時(shí)間推理的短板,探索AI的“時(shí)間盲區(qū)”。

時(shí)間是生活中最司空見(jiàn)慣卻又不可或缺的存在。對(duì)于人類來(lái)說(shuō),掃一眼鐘表就能知道幾點(diǎn),翻開(kāi)日歷便能算出下周是星期幾,這種能力幾乎是與生俱來(lái)的。然而,當(dāng)我們把同樣的任務(wù)交給如今炙手可熱的多模態(tài)大語(yǔ)言模型(MLLMs),結(jié)果卻出乎意料——這些號(hào)稱“聰明絕頂”的AI,竟在時(shí)間的迷霧中頻頻迷路。它們能識(shí)別貓狗,能描述風(fēng)景,卻常常連指針指向幾點(diǎn)都搞不清楚,更別提算出一年中的第153天是哪一天了。為了弄明白AI在這方面的真實(shí)水平,我們?cè)O(shè)計(jì)了一場(chǎng)別開(kāi)生面的實(shí)驗(yàn),試圖揭開(kāi)它們?cè)跁r(shí)間理解上的神秘面紗。

這場(chǎng)實(shí)驗(yàn)的核心,是兩個(gè)精心打造的數(shù)據(jù)集:ClockQA和CalendarQA。ClockQA就像一個(gè)鐘表博物館,里面收藏了62個(gè)模擬鐘表圖像,種類五花八門——有經(jīng)典的標(biāo)準(zhǔn)鐘,黑底白字的對(duì)比款,沒(méi)有秒針的簡(jiǎn)約版,甚至還有羅馬數(shù)字和箭頭指針的藝術(shù)款。我們會(huì)問(wèn)AI一個(gè)簡(jiǎn)單的問(wèn)題:“這個(gè)鐘表顯示的時(shí)間是幾點(diǎn)?”看似輕松,實(shí)則暗藏玄機(jī):AI不僅要看清時(shí)針、分針、秒針的位置,還得把這些視覺(jué)信息轉(zhuǎn)化為具體的時(shí)間表述。而CalendarQA則更像一本時(shí)間年鑒,涵蓋了整整十年的日歷圖像,從元旦到除夕一應(yīng)俱全。問(wèn)題既有“圣誕節(jié)是星期幾”這樣耳熟能詳?shù)模灿小暗?00天是什么日子”這種需要?jiǎng)幽X筋的。兩個(gè)數(shù)據(jù)集雖然規(guī)模不大,卻像兩把鋒利的探針,直刺AI在視覺(jué)識(shí)別、數(shù)字計(jì)算和時(shí)間推理上的薄弱之處。

為什么要研究這個(gè)?原因很簡(jiǎn)單:理解時(shí)間不僅是人類的基本技能,也是AI走向?qū)嵱没年P(guān)鍵一步。試想,如果AI能像人一樣讀懂鐘表和日歷,它就能幫我們安排日程、提醒會(huì)議,甚至在無(wú)人駕駛中根據(jù)時(shí)間調(diào)整策略。然而,現(xiàn)實(shí)卻是殘酷的。盡管多模態(tài)大模型近年來(lái)在圖像識(shí)別、場(chǎng)景描述等領(lǐng)域突飛猛進(jìn),但對(duì)于時(shí)間推理的研究卻寥寥無(wú)幾。過(guò)去,人們更關(guān)心AI能不能認(rèn)出照片里的物體,能不能寫(xiě)出漂亮的圖片說(shuō)明,卻很少有人問(wèn):它能不能看懂鐘表指針的微妙角度?能不能從日歷里算出某個(gè)日期的星期幾?這種忽視,讓時(shí)間理解成了AI能力版圖上的一塊空白。

為了填補(bǔ)這塊空白,我們的實(shí)驗(yàn)不僅設(shè)計(jì)了多樣化的測(cè)試內(nèi)容,還動(dòng)用了七款頂尖的多模態(tài)模型,包括閉源的GPT-4o、Gemini 2.0、Claude 3.5 Sonnet,以及開(kāi)源的Llama 3.2、Qwen2-VL等。這些模型個(gè)個(gè)來(lái)頭不小,有的擅長(zhǎng)語(yǔ)言生成,有的在視覺(jué)任務(wù)中表現(xiàn)搶眼,但面對(duì)鐘表和日歷,它們會(huì)交出怎樣的答卷?我們滿懷期待地開(kāi)始了測(cè)試。


每個(gè)模型在時(shí)鐘(左)和日歷(右)任務(wù)上的性能。數(shù)值越高越好(↑);數(shù)值越低越好(↓)。

先來(lái)看ClockQA的挑戰(zhàn)。想象一個(gè)普通的圓形鐘表,時(shí)針指向3,分針指向12,秒針指向6——對(duì)于人來(lái)說(shuō),這顯然是3點(diǎn)2分6秒??蓪?duì)AI來(lái)說(shuō),這卻是一場(chǎng)視覺(jué)與邏輯的雙重考驗(yàn)。它得先從圖像中分辨出三根指針的位置,再根據(jù)角度計(jì)算出具體時(shí)間,還要考慮12小時(shí)的循環(huán)規(guī)律。我們的數(shù)據(jù)集里,鐘表的樣式千變?nèi)f化:標(biāo)準(zhǔn)款簡(jiǎn)潔明了,黑面鐘對(duì)比鮮明,羅馬數(shù)字鐘充滿古典氣息,箭頭指針鐘則頗具設(shè)計(jì)感。每種樣式都可能讓AI犯暈——比如,羅馬數(shù)字的“IV”和“VI”長(zhǎng)得有點(diǎn)像,指針稍微模糊一點(diǎn),AI就可能看錯(cuò)。更別提有些鐘表故意去掉了秒針,我們本以為這會(huì)讓任務(wù)變簡(jiǎn)單,結(jié)果卻發(fā)現(xiàn),不少模型依然手足無(wú)措,連時(shí)針和分針都分不清。

測(cè)試結(jié)果讓人既驚訝又無(wú)奈。Gemini-2.0在讀鐘任務(wù)中表現(xiàn)稍好,它的時(shí)針和分針誤差相對(duì)較低,比如一個(gè)指向4點(diǎn)的鐘表,它最多錯(cuò)個(gè)幾分鐘??杉幢闳绱?,它的整體準(zhǔn)確率也只有22.58%,也就是說(shuō),五次里只有一次能完全答對(duì)。其他模型的表現(xiàn)更是不忍直視,有的甚至習(xí)慣性地“猜”出一個(gè)默認(rèn)時(shí)間,比如總是說(shuō)“12點(diǎn)”,完全無(wú)視指針的實(shí)際位置。特別是面對(duì)羅馬數(shù)字鐘或箭頭指針鐘,錯(cuò)誤率直線上升。更有趣的是,去掉秒針并沒(méi)有讓任務(wù)變簡(jiǎn)單,反而暴露了AI在指針檢測(cè)和角度計(jì)算上的深層問(wèn)題——它們似乎根本搞不清指針間的相對(duì)關(guān)系。

再來(lái)看CalendarQA的挑戰(zhàn)。相比鐘表,日歷任務(wù)更像一場(chǎng)腦力游戲。我們給AI一張完整的年歷圖,然后拋出問(wèn)題:“元旦是星期幾?”“3月15日是什么日子?”或者“第153天是哪一天?”這些問(wèn)題看似簡(jiǎn)單,實(shí)則需要AI同時(shí)具備視覺(jué)解析和數(shù)學(xué)計(jì)算的能力。它得先看懂日歷的布局,找到對(duì)應(yīng)的日期格子,再結(jié)合問(wèn)題進(jìn)行推理。比如,回答“圣誕節(jié)是星期幾”,AI需要定位12月25日,然后算出那天的星期;如果是“第100天”,則要從1月1日開(kāi)始逐一計(jì)數(shù),還要考慮閏年這樣的細(xì)節(jié)。

結(jié)果顯示,日歷任務(wù)的表現(xiàn)比鐘表任務(wù)稍好,但依然問(wèn)題多多。GPT-o1在這部分大放異彩,準(zhǔn)確率高達(dá)80%,尤其是面對(duì)熱門節(jié)日如元旦和圣誕節(jié),幾乎百發(fā)百中。相比之下,其他模型就遜色不少,Claude 3.5在常見(jiàn)日期上還有些準(zhǔn)頭,可一旦涉及冷門日期或需要計(jì)算的“第n天”,準(zhǔn)確率就直線下降。比如,問(wèn)它“3月15日是星期幾”,有的模型答得驢唇不對(duì)馬嘴;問(wèn)“第153天是什么日子”,不少模型直接卡殼,連基本的日期遞推都做不到。開(kāi)源模型如MiniCPM和Qwen2-VL的表現(xiàn)尤為糟糕,面對(duì)復(fù)雜問(wèn)題時(shí)幾乎是隨機(jī)猜測(cè),毫無(wú)章法可言。

為什么會(huì)出現(xiàn)這樣的差距?仔細(xì)分析后,我們發(fā)現(xiàn)了一些端倪。在鐘表任務(wù)中,AI的短板主要集中在視覺(jué)識(shí)別上——指針的位置稍有偏移,它們就可能判斷失誤;而在日歷任務(wù)中,計(jì)算能力成了關(guān)鍵瓶頸。特別是需要日期偏移的問(wèn)題,比如“第153天”,AI不僅要看懂日歷,還要一步步推算,這對(duì)它們的邏輯推理能力提出了更高要求。閉源模型如GPT-o1之所以表現(xiàn)突出,可能因?yàn)樗鼈冊(cè)谟?xùn)練中接觸過(guò)更多類似的模式,比如熱門節(jié)日的日期分布;而開(kāi)源模型由于數(shù)據(jù)和算力的限制,往往在這類任務(wù)中力不從心。

盡管我們的數(shù)據(jù)集規(guī)模不大,只有62個(gè)鐘表樣本和10年的日歷數(shù)據(jù),但它卻像一盞探照燈,照亮了AI在時(shí)間理解上的諸多盲區(qū)。比如,羅馬數(shù)字鐘暴露了AI在字符識(shí)別上的弱點(diǎn);沒(méi)有秒針的鐘表揭示了它們對(duì)指針角度的依賴性;而日歷中冷門日期的低準(zhǔn)確率,則反映了AI在泛化能力上的不足。這些發(fā)現(xiàn)雖然初步,卻為未來(lái)的研究指明了方向——要想讓AI真正“懂時(shí)間”,不僅需要提升它們的視覺(jué)感知能力,還得強(qiáng)化數(shù)字計(jì)算和結(jié)構(gòu)化推理的水平。

回過(guò)頭來(lái)看,這場(chǎng)實(shí)驗(yàn)不僅是一次技術(shù)上的探索,更是對(duì)AI極限的一次叩問(wèn)。時(shí)間,這個(gè)人類習(xí)以為常的概念,對(duì)AI來(lái)說(shuō)卻是一片未解的迷霧。我們的測(cè)試結(jié)果表明,即便是最先進(jìn)的模型,也遠(yuǎn)未達(dá)到人類在時(shí)間理解上的自然與流暢。Gemini-2.0能在鐘表上稍有建樹(shù),GPT-o1能在日歷中嶄露頭角,但整體來(lái)看,錯(cuò)誤依然層出不窮。指針的微妙傾斜、日歷格子的細(xì)小數(shù)字,這些看似簡(jiǎn)單的細(xì)節(jié),卻成了AI難以逾越的鴻溝。

未來(lái),要讓AI擺脫這片時(shí)光迷霧,或許需要從多個(gè)角度入手。比如,改進(jìn)它們對(duì)鐘表幾何關(guān)系的理解,讓它們能更精準(zhǔn)地捕捉指針的角度;或者優(yōu)化對(duì)日歷結(jié)構(gòu)的解析能力,讓它們能像翻書(shū)一樣輕松找到答案。更重要的是,得教會(huì)它們像人類一樣思考時(shí)間——不僅是看懂表面數(shù)字,還要理解時(shí)間的流動(dòng)與邏輯。這條路還很長(zhǎng),但每一步探索都在為AI的成長(zhǎng)鋪路。

總的來(lái)說(shuō),這次研究就像一場(chǎng)小小的冒險(xiǎn),帶我們走進(jìn)AI的“時(shí)間盲區(qū)”。ClockQA和CalendarQA雖然只是兩把小小的鑰匙,卻打開(kāi)了通往未知的大門。AI的未來(lái)或許光明,但至少在今天,它們還無(wú)法像我們一樣,隨手一瞥就知道“現(xiàn)在是幾點(diǎn)”。而這,正是我們繼續(xù)前行的理由。

本文譯自 arxiv.org,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2025-03-19
研究發(fā)現(xiàn),大模型不懂時(shí)間
多模態(tài)大模型在解讀鐘表和日歷時(shí)頻頻失手。本文通過(guò)ClockQA與CalendarQA數(shù)據(jù)集,揭示其視覺(jué)識(shí)別與時(shí)間推理的短板,探索AI的“時(shí)間盲區(qū)”。時(shí)間是生活中最司空見(jiàn)慣卻又不可或缺的存在。

長(zhǎng)按掃碼 閱讀全文