探索多模態(tài)創(chuàng)造力:GPT-4.5與視覺創(chuàng)造力基準(zhǔn)的較量
隨著GPT-4.5在語(yǔ)言生成能力上的顯著提升,其創(chuàng)造力也引發(fā)了廣泛關(guān)注。然而,當(dāng)我們將其應(yīng)用于真實(shí)場(chǎng)景的多模態(tài)任務(wù)時(shí),我們發(fā)現(xiàn)其表現(xiàn)可能并未達(dá)到預(yù)期。近日,浙江大學(xué)聯(lián)合上海人工智能實(shí)驗(yàn)室等團(tuán)隊(duì)發(fā)布的全球首個(gè)多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn),為我們揭示了多模態(tài)大模型在現(xiàn)實(shí)場(chǎng)景中的創(chuàng)造力較量。
首先,我們需要理解什么是多模態(tài)創(chuàng)造力。在人工智能的“智力三元論”中,創(chuàng)造性智能(Creative Intelligence)始終是最難評(píng)估和攻克的一環(huán)。它涉及在不同背景下生成新穎和適當(dāng)解決方案的能力,這正是多模態(tài)大模型在現(xiàn)實(shí)場(chǎng)景中展現(xiàn)出創(chuàng)造力的關(guān)鍵。
現(xiàn)有的多模態(tài)大模型評(píng)測(cè)基準(zhǔn),如MMBench、MMMU等,往往更偏重于分析性或?qū)嵱眯匀蝿?wù),而忽略了多模態(tài)AI在真實(shí)生活中常見的“創(chuàng)意類任務(wù)”。然而,這些任務(wù)對(duì)于人類來說是駕輕就熟的,但對(duì)于現(xiàn)有的部分多模態(tài)大模型卻往往是“高難動(dòng)作”。這正是浙江大學(xué)聯(lián)合團(tuán)隊(duì)發(fā)布的全球首個(gè)多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)——Creation-MMBench所要解決的問題。
在深度探討Creation-MMBench之前,我們需要了解為何我們要關(guān)注視覺創(chuàng)造智能。在人工智能的智力體系中,視覺智能是理解世界的重要一環(huán)。在創(chuàng)造性智能中,視覺內(nèi)容理解與情境適應(yīng)的能力尤為重要。相較于其他廣泛使用的多模態(tài)評(píng)測(cè)基準(zhǔn),Creation-MMBench具有更全面和復(fù)雜的問題設(shè)計(jì),大多數(shù)問題的長(zhǎng)度超過500個(gè)詞元,這有助于模型捕捉更豐富的創(chuàng)意上下文。
Creation-MMBench的核心在于真實(shí)場(chǎng)景的多模態(tài)融合。它涵蓋了四大任務(wù)類別、51項(xiàng)細(xì)粒度任務(wù),用765個(gè)高難度測(cè)試案例,為多模態(tài)大模型的“視覺創(chuàng)意智能”提供全方位體檢。其中,任務(wù)類別包括文學(xué)創(chuàng)作、日常功能性寫作、專業(yè)功能性寫作以及多模態(tài)理解與創(chuàng)作。這些任務(wù)需要模型具備視覺內(nèi)容理解、情境適應(yīng)以及創(chuàng)意性文本生成等多重能力,這是現(xiàn)有基準(zhǔn)難以評(píng)估的核心能力。
為了確保評(píng)判的公正性和一致性,團(tuán)隊(duì)使用了GPT-4O作為評(píng)判模型,并采用了雙重評(píng)估體系。他們選擇了使用多模態(tài)大模型作為評(píng)判模型,同時(shí)使用兩個(gè)不同指標(biāo)進(jìn)行雙重評(píng)估。這包括視覺事實(shí)性評(píng)分(VFS)和創(chuàng)意獎(jiǎng)勵(lì)分(Reward)。視覺事實(shí)性評(píng)分確保模型不是“瞎編”,而創(chuàng)意獎(jiǎng)勵(lì)分則考察模型是否能夠結(jié)合視覺內(nèi)容生成有創(chuàng)意的文本。
為了驗(yàn)證評(píng)判模型的可靠性,團(tuán)隊(duì)還招募了志愿者對(duì)13%的樣本進(jìn)行人工評(píng)估。結(jié)果顯示,GPT-4O展現(xiàn)出了更強(qiáng)的人類偏好一致性,同時(shí)也證明了雙向評(píng)判的必要性。這表明傳統(tǒng)的客觀指標(biāo)可能無法完全捕捉模型在復(fù)雜現(xiàn)實(shí)場(chǎng)景中的創(chuàng)造能力,而Creation-MMBench填補(bǔ)了這一領(lǐng)域的重要性。
值得注意的是,GPT-4.5在語(yǔ)言生成能力上的提升并未帶來其在多模態(tài)創(chuàng)造力上的顯著提升。在與全球首個(gè)多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)Creation-MMBench的對(duì)比實(shí)驗(yàn)中,GPT-4.5在某些任務(wù)上的表現(xiàn)甚至不及GPT-4O。這讓我們重新思考GPT-4.5的真正潛力以及多模態(tài)創(chuàng)造力評(píng)測(cè)的重要性。
總的來說,Creation-MMBench作為一個(gè)新穎的基準(zhǔn),旨在評(píng)估多模態(tài)大模型在現(xiàn)實(shí)場(chǎng)景中的創(chuàng)造能力。該基準(zhǔn)包含765個(gè)實(shí)例,涵蓋51個(gè)詳細(xì)任務(wù),為多模態(tài)大模型的創(chuàng)造力提供了全方位的評(píng)估。盡管GPT-4.5在語(yǔ)言生成能力上有所提升,但在真實(shí)場(chǎng)景中的多模態(tài)創(chuàng)造力較量中,我們?nèi)孕杞柚馛reation-MMBench這樣的評(píng)測(cè)基準(zhǔn)來揭示其真實(shí)能力。
希望這篇文章符合您的要求,如果您還有其他問題,歡迎隨時(shí)向我提問。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )