清華研發(fā) AutoDroid-V2:創(chuàng)新移動端自動化 GUI 控制,實現(xiàn)AI離線在線協(xié)同

創(chuàng)新移動端自動化 GUI 控制:清華研發(fā) AutoDroid-V2:創(chuàng)新離線在線協(xié)同

隨著人工智能技術的快速發(fā)展,移動設備自動化控制領域也取得了顯著的進步。近期,清華大學智能產(chǎn)業(yè)研究院(AIR)發(fā)布了一篇論文,介紹了 AutoDroid-V2 AI 模型,該模型利用小型語言模型(SLM)顯著提升了自然語言控制的自動化程度,為移動設備控制領域帶來了創(chuàng)新。

AutoDroid-V2 模型采用了基于腳本的方法,利用設備端小型語言模型(SLM)的編碼能力,高效執(zhí)行用戶指令。與傳統(tǒng)依賴云端大型語言模型(LLM)的方法相比,AutoDroid-V2 在效率、隱私和安全性方面具有顯著優(yōu)勢。

在項目背景方面,大型語言模型(LLMs)和視覺語言模型(VLM)通過自然語言命令徹底改變了移動設備控制的自動化,為復雜的用戶任務提供了解決方案。然而,傳統(tǒng)的逐步操作方式存在諸多問題,如隱私和安全風險、用戶端流量消耗以及高昂的服務器端集中服務成本等。

AutoDroid-V2 的出現(xiàn),為移動設備自動化控制領域帶來了創(chuàng)新。該模型根據(jù)用戶指令生成多步驟腳本,一次性執(zhí)行多個 GUI 操作,大幅減少了查詢頻率和資源消耗。利用設備上的小型語言模型進行腳本生成和執(zhí)行,避免了對強大云端模型的依賴,有效保護了用戶隱私和數(shù)據(jù)安全,并降低了服務器端成本。

為了實現(xiàn)這一創(chuàng)新,AutoDroid-V2 在離線階段構建了應用程序文檔,包含 AI 引導的 GUI 狀態(tài)壓縮、元素 XPath 自動生成和 GUI 依賴分析,為腳本生成奠定了基礎。此外,用戶提交任務請求后,本地 LLM 會生成多步驟腳本,由特定域解釋器執(zhí)行,確??煽扛咝У倪\行。

在性能方面,AutoDroid-V2 在基準測試中表現(xiàn)出色。在 23 個移動應用上測試了 226 項任務,與 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基線相比,任務完成率提高了 10.5%-51.7%。此外,輸入和輸出 token 消耗分別減少至 43.5 分之一和 5.8 分之一,LLM 推理延遲降低至 5.7~13.4 分之一。值得一提的是,AutoDroid-V2 在跨 LLM 測試中表現(xiàn)穩(wěn)定,在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 等不同 LLM 上均表現(xiàn)出一致的成功率和反向冗余比。

綜上所述,AutoDroid-V2 的研發(fā)是清華大學在移動設備自動化控制領域的一項重要創(chuàng)新。該模型通過利用小型語言模型,顯著提升了自然語言控制的自動化程度,實現(xiàn)了 AI 在離線在線的協(xié)同工作。這一創(chuàng)新不僅提高了自動化控制的效率、降低了成本,還為移動設備控制領域帶來了更廣闊的應用前景。未來,我們期待看到更多類似的研究成果,推動人工智能技術在移動設備自動化控制領域的發(fā)展。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2025-01-02
清華研發(fā) AutoDroid-V2:創(chuàng)新移動端自動化 GUI 控制,實現(xiàn)AI離線在線協(xié)同
創(chuàng)新移動端自動化 GUI 控制:清華研發(fā) AutoDroid-V2:創(chuàng)新離線在線協(xié)同 隨著人工智能技術的快速發(fā)展,移動設備自動化控制領域也取得了...

長按掃碼 閱讀全文