面對(duì)一段汽車行駛中的座艙錄音,AI 能否判斷出汽車是否存在潛在的故障?在交響樂演出現(xiàn)場(chǎng),AI 能否推測(cè)出作曲家創(chuàng)造這首音樂時(shí)的心情?在早高峰地鐵站混亂的腳步聲潮中,AI 能否預(yù)判閘機(jī)口可能發(fā)生的沖撞風(fēng)險(xiǎn)?在大模型時(shí)代,人們已經(jīng)不滿足于機(jī)器僅僅識(shí)別說話的內(nèi)容、聲音的種類,更期望機(jī)器具備復(fù)雜推理的能力。
MMAU(Massive Multi-Task Audio Understanding and Reasoning)評(píng)測(cè)集(https://arxiv.org/abs/2410.19168)是這種音頻理解和推斷能力的量化標(biāo)尺,它通過一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本,結(jié)合人類專家標(biāo)注的問答對(duì),測(cè)試模型在27種技能,如跨場(chǎng)景推理、專業(yè)知識(shí)等應(yīng)用上的表現(xiàn),期望模型達(dá)到接近人類專家的邏輯分析水平。
作為基準(zhǔn)上限,人類專家在 MMAU 上的準(zhǔn)確率為 82.23%。這是一個(gè)很難的評(píng)測(cè)集,目前 MMAU 官網(wǎng)榜單上表現(xiàn)最好的模型是來自 OpenAI 的 GPT-4o,準(zhǔn)確率為 57.3%。緊隨其后的是來自 Google DeepMind 的 Gemini 2.0 Flash,準(zhǔn)確率為 55.6%。
圖1:MMAU 任務(wù)示例 圖片來自 MMAU 論文
來自阿里的 Qwen2-Audio-7B 模型在此評(píng)測(cè)集上的準(zhǔn)確率為 49.2%。由于它的開源特性,我們嘗試使用一個(gè)較小的數(shù)據(jù)集,清華大學(xué)發(fā)布的 AVQA 數(shù)據(jù)集(https://mn.cs.tsinghua.edu.cn/avqa/),對(duì)此模型做微調(diào)。AVQA 數(shù)據(jù)集僅包含 3.8 萬條訓(xùn)練樣本,通過全量有監(jiān)督微調(diào)(SFT),模型在 MMAU 上的準(zhǔn)確率提升到了 51.8%。這并不是一個(gè)特別顯著的提升。
DeepSeek-R1 的發(fā)布為我們?cè)谠擁?xiàng)任務(wù)上的研究帶來了啟發(fā)。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,讓模型僅通過"試錯(cuò)-獎(jiǎng)勵(lì)"機(jī)制就能使自主進(jìn)化,涌現(xiàn)出類似人類的反思、多步驗(yàn)證等推理能力。在同一時(shí)間,卡內(nèi)基梅隆大學(xué)發(fā)布的論文預(yù)印本 “All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/abs/2503.01067) ”,通過精巧的實(shí)驗(yàn)得出了一個(gè)有趣的論斷:當(dāng)任務(wù)存在明顯的生成-驗(yàn)證差距(Generation-Verification Gap),即任務(wù)生成結(jié)果的難度遠(yuǎn)大于驗(yàn)證結(jié)果正確性的難度時(shí),強(qiáng)化學(xué)習(xí)比起有監(jiān)督微調(diào)具有獨(dú)特優(yōu)勢(shì),而 AQA 任務(wù)恰好是完美的生成-驗(yàn)證差距顯著的任務(wù)。
打個(gè)比方來說,離線微調(diào)方法,如 SFT,有點(diǎn)像背題庫(kù),你只能根據(jù)已有的題目和答案訓(xùn)練,但遇到新題可能不會(huì)做;而強(qiáng)化學(xué)習(xí)方法,如 GRPO,像老師在要求你多想幾個(gè)答案,然后老師告訴你哪一個(gè)答案好,讓你主動(dòng)思考,激發(fā)出自身的能力,而不是被“填鴨式”教學(xué)。當(dāng)然,如果訓(xùn)練量足夠,比如有學(xué)生愿意花很多年的時(shí)間來死記硬背題庫(kù),也許最終也能達(dá)到不錯(cuò)的效果,但效率太低,浪費(fèi)太多時(shí)間。而主動(dòng)思考,更容易快速地達(dá)到舉一反三的效果。強(qiáng)化學(xué)習(xí)的實(shí)時(shí)反饋可能會(huì)幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域,而離線方法需要遍歷整個(gè)可能性空間,效率要低得多。
基于上述洞察,我們嘗試將 DeepSeek-R1 的 GRPO 算法遷移到 Qwen2-Audio-7B 模型上。令人驚喜的是,在僅使用 AVQA 的 3.8 萬條訓(xùn)練樣本的情況下,強(qiáng)化學(xué)習(xí)微調(diào)后的模型在 MMAU 評(píng)測(cè)集上實(shí)現(xiàn)了 64.5% 的準(zhǔn)確率,這一成績(jī)比目前榜單上第一名的商業(yè)閉源模型 GPT-4o 有近10個(gè)百分點(diǎn)的優(yōu)勢(shì)。
有趣的是,當(dāng)我們?cè)谟?xùn)練中強(qiáng)制要求模型輸出 <thinking></thinking> 推理過程時(shí),準(zhǔn)確率反而下降至 61.1%。這說明顯式的思維鏈結(jié)果輸出可能并不利于模型的訓(xùn)練。
我們的實(shí)驗(yàn)揭示了幾個(gè)和傳統(tǒng)認(rèn)知不同的結(jié)論:
1.關(guān)于微調(diào)方法:強(qiáng)化學(xué)習(xí)在 3.8 萬條數(shù)據(jù)集上的表現(xiàn)顯著超過監(jiān)督學(xué)習(xí)在 57 萬條數(shù)據(jù)集上的結(jié)果
2.關(guān)于參數(shù)規(guī)模:相比千億級(jí)模型,7B 參數(shù)的模型通過強(qiáng)化學(xué)習(xí)也可展現(xiàn)強(qiáng)推理能力
3.關(guān)于隱式推理:顯式思維鏈輸出反而成為性能瓶頸
盡管當(dāng)前準(zhǔn)確率已突破 64%,但距離人類專家 82% 的水平仍有差距。在我們當(dāng)前的實(shí)驗(yàn)中,強(qiáng)化學(xué)習(xí)策略還是比較粗糙,訓(xùn)練過程對(duì)思維鏈的引導(dǎo)并不充分,我們會(huì)在后續(xù)做進(jìn)一步探索。
此次實(shí)驗(yàn)驗(yàn)證了強(qiáng)化學(xué)習(xí)在音頻理解和推斷領(lǐng)域的獨(dú)特價(jià)值,也為后續(xù)研究打開了一扇新的大門。當(dāng)機(jī)器不僅能"聽見"聲音,還能"聽懂"聲音背后的因果邏輯時(shí),真正的智能聽覺時(shí)代將會(huì)來臨。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 卷又不動(dòng),躺又不平!網(wǎng)易困在舒適區(qū)!
- 時(shí)代紅利的十字路口?《激流2》記錄五大行業(yè)的商業(yè)博弈
- 網(wǎng)翎衛(wèi)星上網(wǎng)機(jī)馳援緬甸地震,8 場(chǎng)高清直播連線詮釋“中國(guó)溫度”
- AI重塑云基礎(chǔ)設(shè)施,亞馬遜云科技打造AI定制版IaaS“樣板房”
- 謠言也有“殺傷力”,農(nóng)夫山泉應(yīng)對(duì)輿情錯(cuò)在什么地方?
- 企業(yè)級(jí)AI“脫虛向?qū)崱保涞剡€有幾道檻?
- 電商新趨勢(shì),從“真人一鍵克隆”數(shù)字人進(jìn)軍直播間開始
- 劉興亮 | 如何走出AI幻覺
- 在線教育退潮,硬件增長(zhǎng)啞火!網(wǎng)易有道押注AI!
- 上線月余日單百萬,和商家聊完,該重估京東外賣了
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。