標(biāo)題:開源 GLM-PC 基座模型 CogAgent-9B:引領(lǐng) AI 智能體“看懂”屏幕的新潮流
隨著人工智能技術(shù)的不斷發(fā)展,智能體(Agent)在各個(gè)領(lǐng)域的應(yīng)用越來越廣泛。近日,智譜技術(shù)團(tuán)隊(duì)開源了 GLM-PC 的基座模型 CogAgent-9B-20241220,該模型基于 GLM-4V-9B 訓(xùn)練,專用于智能體任務(wù),憑借其強(qiáng)大的性能和廣泛的適用性,引領(lǐng)了 AI 智能體“看懂”屏幕的新潮流。
CogAgent-9B-20241220 模型基于 GLM-4V-9B 訓(xùn)練,具有出色的 GUI 感知能力,能夠根據(jù)用戶指定的任意任務(wù),結(jié)合歷史操作,預(yù)測下一步的 GUI 操作。該模型僅需屏幕截圖作為輸入(無需 HTML 等文本表征),使其在各類基于 GUI 交互的場景中具有廣泛的應(yīng)用前景,如個(gè)人電腦、手機(jī)、車機(jī)設(shè)備等。
相較于 2023 年 12 月開源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理預(yù)測準(zhǔn)確性、動作空間完善性、任務(wù)普適性和泛化性等方面均實(shí)現(xiàn)了顯著提升。值得一提的是,該模型支持中英文雙語的屏幕截圖和語言交互,進(jìn)一步拓展了其應(yīng)用范圍。
CogAgent 的輸入僅包含三部分:用戶的自然語言指令、已執(zhí)行歷史動作記錄和 GUI 截圖,無需任何文本形式表征的布局信息或附加元素標(biāo)簽(set of marks)信息。這一特性使得 CogAgent 在處理復(fù)雜 GUI 場景時(shí)具有更高的效率和準(zhǔn)確性。
其輸出涵蓋以下四個(gè)方面:
思考過程(Status & Plan):CogAgent 顯式輸出理解 GUI 截圖和決定下一步操作的思考過程,這一功能使得用戶能夠直觀地了解智能體的決策過程,增強(qiáng)了用戶交互的體驗(yàn)。
下一步動作的自然語言描述(Action):自然語言形式的動作描述將被加入歷史操作記錄,便于模型理解已執(zhí)行的動作步驟。這一功能使得智能體不僅能夠執(zhí)行操作,還能夠進(jìn)行邏輯推理,提高了智能體的智能化程度。
下一步動作的結(jié)構(gòu)化描述(Grounded Operation):CogAgent 以類似函數(shù)調(diào)用的形式,結(jié)構(gòu)化地描述下一步操作及其參數(shù),這一功能使得智能體能夠更加靈活地應(yīng)對各種復(fù)雜的 GUI 場景,提高了智能體的泛用性。
下一步動作的敏感性判斷:通過將動作分為“一般操作”和“敏感操作”兩類,CogAgent 能夠判斷動作的風(fēng)險(xiǎn)性,從而避免可能帶來難以挽回后果的操作,提高了智能體的安全性。
為了驗(yàn)證 CogAgent-9B-20241220 的性能,該模型在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等數(shù)據(jù)集上進(jìn)行了測試,并與 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,CogAgent 在多個(gè)數(shù)據(jù)集上取得了領(lǐng)先的結(jié)果,證明了其在 GUI Agent 領(lǐng)域強(qiáng)大的性能。
綜上所述,開源 GLM-PC 基座模型 CogAgent-9B-20241220 的出現(xiàn),為智能體領(lǐng)域帶來了新的發(fā)展機(jī)遇。憑借其出色的 GUI 感知能力、廣泛的適用性、豐富的輸出功能以及優(yōu)越的性能表現(xiàn),CogAgent 有望在未來的智能體領(lǐng)域中發(fā)揮越來越重要的作用,引領(lǐng) AI 智能體“看懂”屏幕的新潮流。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )