欧美人与性动交α欧美精品,99热在线观看

浙大上海AI Lab發(fā)布全球首個(gè)創(chuàng)造力評(píng)測(cè)基準(zhǔn)：GPT-4.5創(chuàng)造力不及GPT-4O，真實(shí)場(chǎng)景下的創(chuàng)造力較量揭曉

人閱讀

2025-04-04 21:05:45

作者：極客AI
相關(guān)關(guān)鍵詞

探索多模態(tài)創(chuàng)造力：GPT-4.5與視覺創(chuàng)造力基準(zhǔn)的較量

隨著GPT-4.5在語(yǔ)言生成能力上的顯著提升，其創(chuàng)造力也引發(fā)了廣泛關(guān)注。然而，當(dāng)我們將其應(yīng)用于真實(shí)場(chǎng)景的多模態(tài)任務(wù)時(shí)，我們發(fā)現(xiàn)其表現(xiàn)可能并未達(dá)到預(yù)期。近日，浙江大學(xué)聯(lián)合上海人工智能實(shí)驗(yàn)室等團(tuán)隊(duì)發(fā)布的全球首個(gè)多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)，為我們揭示了多模態(tài)大模型在現(xiàn)實(shí)場(chǎng)景中的創(chuàng)造力較量。

首先，我們需要理解什么是多模態(tài)創(chuàng)造力。在人工智能的“智力三元論”中，創(chuàng)造性智能（Creative Intelligence）始終是最難評(píng)估和攻克的一環(huán)。它涉及在不同背景下生成新穎和適當(dāng)解決方案的能力，這正是多模態(tài)大模型在現(xiàn)實(shí)場(chǎng)景中展現(xiàn)出創(chuàng)造力的關(guān)鍵。

現(xiàn)有的多模態(tài)大模型評(píng)測(cè)基準(zhǔn)，如MMBench、MMMU等，往往更偏重于分析性或?qū)嵱眯匀蝿?wù)，而忽略了多模態(tài)AI在真實(shí)生活中常見的“創(chuàng)意類任務(wù)”。然而，這些任務(wù)對(duì)于人類來說是駕輕就熟的，但對(duì)于現(xiàn)有的部分多模態(tài)大模型卻往往是“高難動(dòng)作”。這正是浙江大學(xué)聯(lián)合團(tuán)隊(duì)發(fā)布的全球首個(gè)多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)——Creation-MMBench所要解決的問題。

在深度探討Creation-MMBench之前，我們需要了解為何我們要關(guān)注視覺創(chuàng)造智能。在人工智能的智力體系中，視覺智能是理解世界的重要一環(huán)。在創(chuàng)造性智能中，視覺內(nèi)容理解與情境適應(yīng)的能力尤為重要。相較于其他廣泛使用的多模態(tài)評(píng)測(cè)基準(zhǔn)，Creation-MMBench具有更全面和復(fù)雜的問題設(shè)計(jì)，大多數(shù)問題的長(zhǎng)度超過500個(gè)詞元，這有助于模型捕捉更豐富的創(chuàng)意上下文。

Creation-MMBench的核心在于真實(shí)場(chǎng)景的多模態(tài)融合。它涵蓋了四大任務(wù)類別、51項(xiàng)細(xì)粒度任務(wù)，用765個(gè)高難度測(cè)試案例，為多模態(tài)大模型的“視覺創(chuàng)意智能”提供全方位體檢。其中，任務(wù)類別包括文學(xué)創(chuàng)作、日常功能性寫作、專業(yè)功能性寫作以及多模態(tài)理解與創(chuàng)作。這些任務(wù)需要模型具備視覺內(nèi)容理解、情境適應(yīng)以及創(chuàng)意性文本生成等多重能力，這是現(xiàn)有基準(zhǔn)難以評(píng)估的核心能力。

為了確保評(píng)判的公正性和一致性，團(tuán)隊(duì)使用了GPT-4O作為評(píng)判模型，并采用了雙重評(píng)估體系。他們選擇了使用多模態(tài)大模型作為評(píng)判模型，同時(shí)使用兩個(gè)不同指標(biāo)進(jìn)行雙重評(píng)估。這包括視覺事實(shí)性評(píng)分（VFS）和創(chuàng)意獎(jiǎng)勵(lì)分（Reward）。視覺事實(shí)性評(píng)分確保模型不是“瞎編”，而創(chuàng)意獎(jiǎng)勵(lì)分則考察模型是否能夠結(jié)合視覺內(nèi)容生成有創(chuàng)意的文本。

為了驗(yàn)證評(píng)判模型的可靠性，團(tuán)隊(duì)還招募了志愿者對(duì)13%的樣本進(jìn)行人工評(píng)估。結(jié)果顯示，GPT-4O展現(xiàn)出了更強(qiáng)的人類偏好一致性，同時(shí)也證明了雙向評(píng)判的必要性。這表明傳統(tǒng)的客觀指標(biāo)可能無法完全捕捉模型在復(fù)雜現(xiàn)實(shí)場(chǎng)景中的創(chuàng)造能力，而Creation-MMBench填補(bǔ)了這一領(lǐng)域的重要性。

值得注意的是，GPT-4.5在語(yǔ)言生成能力上的提升并未帶來其在多模態(tài)創(chuàng)造力上的顯著提升。在與全球首個(gè)多模態(tài)創(chuàng)造力評(píng)測(cè)基準(zhǔn)Creation-MMBench的對(duì)比實(shí)驗(yàn)中，GPT-4.5在某些任務(wù)上的表現(xiàn)甚至不及GPT-4O。這讓我們重新思考GPT-4.5的真正潛力以及多模態(tài)創(chuàng)造力評(píng)測(cè)的重要性。

總的來說，Creation-MMBench作為一個(gè)新穎的基準(zhǔn)，旨在評(píng)估多模態(tài)大模型在現(xiàn)實(shí)場(chǎng)景中的創(chuàng)造能力。該基準(zhǔn)包含765個(gè)實(shí)例，涵蓋51個(gè)詳細(xì)任務(wù)，為多模態(tài)大模型的創(chuàng)造力提供了全方位的評(píng)估。盡管GPT-4.5在語(yǔ)言生成能力上有所提升，但在真實(shí)場(chǎng)景中的多模態(tài)創(chuàng)造力較量中，我們?nèi)孕杞柚馛reation-MMBench這樣的評(píng)測(cè)基準(zhǔn)來揭示其真實(shí)能力。

希望這篇文章符合您的要求，如果您還有其他問題，歡迎隨時(shí)向我提問。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）