Netflix等顛覆運(yùn)動(dòng)控制:一拖一拽小貓,讓噪音扭曲算法更簡單

顛覆運(yùn)動(dòng)控制:一拖一拽小貓,讓噪聲扭曲算法更簡單

隨著視頻生成領(lǐng)域的不斷發(fā)展,人們對視頻質(zhì)量的要求也越來越高。在這個(gè)背景下,運(yùn)動(dòng)控制成為了視頻生成領(lǐng)域的一個(gè)重要研究方向。最近,研究者們提出了一種新穎的噪聲扭曲算法,該算法可以將運(yùn)動(dòng)控制自然地融入視頻擴(kuò)散噪聲采樣過程,從而為運(yùn)動(dòng)可控的視頻生成場景提供了更加便捷和通用的解決方案。

一、創(chuàng)新方法:將運(yùn)動(dòng)控制轉(zhuǎn)化為結(jié)構(gòu)化噪聲

在視頻擴(kuò)散生成領(lǐng)域,如何精準(zhǔn)操控視頻中的運(yùn)動(dòng)細(xì)節(jié)而又不犧牲畫面質(zhì)量,一直是研究者共同追逐的目標(biāo)。為了實(shí)現(xiàn)這一目標(biāo),研究者們不斷創(chuàng)新,提出了許多新的方法。其中,一種創(chuàng)新的方法是通過結(jié)構(gòu)化的潛在噪聲采樣控制運(yùn)動(dòng)。這種方法通過對訓(xùn)練視頻做預(yù)處理,生成結(jié)構(gòu)化噪聲,而這一過程不涉及擴(kuò)散模型的設(shè)計(jì),無需改變其架構(gòu)和訓(xùn)練流程。

二、噪聲扭曲算法:速度超快,實(shí)時(shí)運(yùn)行

該團(tuán)隊(duì)提出了一種全新的噪聲扭曲算法,該算法的速度超快,能夠?qū)崟r(shí)運(yùn)行。它用光流場推導(dǎo)的扭曲噪聲,取代了隨機(jī)的時(shí)序高斯噪聲,同時(shí)保持了空間高斯性。由于算法高效,能夠用扭曲噪聲以極小的成本微調(diào)視頻擴(kuò)散基礎(chǔ)模型。

三、全面的運(yùn)動(dòng)控制方案

該算法為使用者提供了一種全面的運(yùn)動(dòng)控制方案,可用于局部物體運(yùn)動(dòng)控制、全局?jǐn)z像機(jī)運(yùn)動(dòng)控制以及運(yùn)動(dòng)遷移等場景。通過局部拖動(dòng)信號,用戶就可以靈活地改變噪聲元素,從而讓局部物體按照需求運(yùn)動(dòng)。同時(shí),該算法還能夠根據(jù)前向、后向光流,計(jì)算畫面的擴(kuò)展與收縮變化,以此來確定噪聲的扭曲方式。此外,結(jié)合HIWYN提出的條件白噪聲采樣方法,保證算法在運(yùn)行過程中始終維持高斯性。

四、實(shí)驗(yàn)結(jié)果與用戶研究

為了驗(yàn)證該方法在各類運(yùn)動(dòng)控制應(yīng)用中的優(yōu)勢,研究者們進(jìn)行了大量的實(shí)驗(yàn)及用戶調(diào)研。結(jié)果表明,該方法在保持運(yùn)動(dòng)一致性和針對同一情境渲染不同的運(yùn)動(dòng)效果方面表現(xiàn)十分出色。從實(shí)驗(yàn)數(shù)據(jù)和用戶反饋來看,該方法在像素畫面質(zhì)量、運(yùn)動(dòng)控制精準(zhǔn)度、與文本描述的契合度、視頻時(shí)間連貫性以及用戶喜好程度等方面均具有顯著優(yōu)勢。

五、速度提升與實(shí)時(shí)性優(yōu)化

該團(tuán)隊(duì)的研究成果不僅體現(xiàn)在算法的創(chuàng)新上,更在于其在實(shí)際應(yīng)用中的表現(xiàn)。他們通過實(shí)驗(yàn)驗(yàn)證了新算法在處理大規(guī)模數(shù)據(jù)時(shí)的效率優(yōu)勢。為了驗(yàn)證噪聲扭曲算法的有效性,將經(jīng)不同方法扭曲的噪聲輸入到用于超分辨率和人像重光照的預(yù)訓(xùn)練圖像擴(kuò)散模型中,通過評估輸出視頻的質(zhì)量和時(shí)間一致性。結(jié)果顯示,該方法在時(shí)間一致性上比基線方法更出色,處理前景、背景和邊緣時(shí)穩(wěn)定性更好。

六、總結(jié)與展望

本研究提出了一種新穎的、速度快于實(shí)時(shí)的噪聲扭曲算法,該算法能夠?qū)⑦\(yùn)動(dòng)控制自然地融入視頻擴(kuò)散噪聲采樣過程。研究者用這種噪聲扭曲技術(shù)對視頻數(shù)據(jù)進(jìn)行預(yù)處理,以開展視頻擴(kuò)散微調(diào),從而提供了一種通用且用戶友好的范式,可應(yīng)用于各類運(yùn)動(dòng)可控的視頻生成場景。

未來,隨著視頻生成技術(shù)的不斷發(fā)展,運(yùn)動(dòng)控制將變得更加重要。相信在研究者們的不斷努力下,我們將會看到更多創(chuàng)新的方法和算法出現(xiàn),為視頻生成領(lǐng)域帶來更多的可能性。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-02-05
Netflix等顛覆運(yùn)動(dòng)控制:一拖一拽小貓,讓噪音扭曲算法更簡單
一種新穎的噪聲扭曲算法可將運(yùn)動(dòng)控制自然融入視頻擴(kuò)散噪聲采樣,提供全面的運(yùn)動(dòng)控制方案,適用于局部物體運(yùn)動(dòng)控制、全局?jǐn)z像機(jī)運(yùn)動(dòng)控制以及運(yùn)動(dòng)遷移等場景。實(shí)驗(yàn)結(jié)果和用戶反饋顯示該方法在多個(gè)方面具有顯著優(yōu)勢。

長按掃碼 閱讀全文