新加坡國立大學Kiwi-Edit:單圖驅(qū)動視頻精準操控編輯

新加坡國立大學Kiwi-Edit:單圖驅(qū)動視頻精準操控編輯

這項由新加坡國立大學Show Lab團隊領導的創(chuàng)新研究于2026年3月發(fā)表,研究編號為arXiv:2603.02175v1大學。有興趣深入了解的讀者可以通過這個編號查詢完整論文。

當我們想要編輯一段視頻時,往往需要借助復雜的專業(yè)軟件,花費大量時間學習各種工具和技巧大學。更困難的是,當你想讓視頻中的某個人物穿上特定款式的衣服,或者把背景換成你心目中的理想場景時,僅僅用語言描述往往難以準確傳達你的想法。就像你去理發(fā)店,光說"剪短一點"往往得不到滿意的結(jié)果,最好的辦法是拿一張照片給理發(fā)師看。視頻編輯也面臨著同樣的困境。

新加坡國立大學的研究團隊就像是給視頻編輯行業(yè)帶來了一位貼心的翻譯官大學。他們開發(fā)的Kiwi-Edit系統(tǒng),能夠理解你的文字描述,同時參考你提供的圖片,然后像一位經(jīng)驗豐富的視頻制作師一樣,精準地按照你的意圖編輯視頻。這就好比你不僅能告訴理發(fā)師"我想要短發(fā)",還能同時給他看一張明星的發(fā)型照片,讓他完全明白你想要的效果。

研究團隊發(fā)現(xiàn)了當前視頻編輯技術(shù)的一個關(guān)鍵痛點:現(xiàn)有的方法主要依賴文字指令,但文字在描述復雜視覺細節(jié)時存在天然局限性大學。當你想要替換視頻中的某個物體時,說"換成一輛紅色跑車"和"換成一輛法拉利488 GTB"雖然都是紅色跑車,但視覺效果卻可能天差地別。更不用說那些難以用語言準確描述的紋理、風格或者具體形狀了。

為了解決這個問題,研究團隊構(gòu)建了一個名為RefVIE的大規(guī)模數(shù)據(jù)集,包含了47.7萬個高質(zhì)量的四元組訓練樣本大學。每個樣本都包含源視頻、編輯指令、參考圖片和目標視頻四個要素。這就像是為人工智能準備了一本巨大的視頻編輯教科書,里面不僅有文字說明,還配有豐富的圖片示例。

研究團隊的數(shù)據(jù)構(gòu)建過程就像是一個精密的流水線工廠大學。他們首先從現(xiàn)有的大型視頻編輯數(shù)據(jù)集中收集了370萬個原始樣本,然后通過四個精心設計的過濾階段,最終篩選出47.7萬個高質(zhì)量樣本。這個過程就像淘金一樣,從大量的原料中提取出最有價值的部分。

一、數(shù)據(jù)生成大學:從無到有的智能制造過程

整個數(shù)據(jù)構(gòu)建過程就像一個智能化的內(nèi)容工廠,將原本零散的視頻編輯材料組裝成完整的訓練套餐大學。研究團隊從三個主要的開源數(shù)據(jù)集開始收集原材料,包括Ditto-1M、ReCo和OpenVE-3M,這些就像是工廠的原材料倉庫。

展開全文

第一個關(guān)鍵步驟是質(zhì)量篩選,就像質(zhì)檢員檢查產(chǎn)品一樣大學。研究團隊使用EditScore這個評估工具,為每個樣本打分。他們發(fā)現(xiàn),只有得分在6分以上的樣本才適合用于基礎的文字指導訓練,而對于需要參考圖片的復雜編輯任務,他們將標準提高到8分以上。同時,他們專門選擇了兩類最能從視覺參考中獲益的任務:局部修改和背景替換。

接下來是定位和分割階段,這就像外科醫(yī)生精確定位手術(shù)部位一樣大學。研究團隊使用了Qwen3-VL-32B這個先進的視覺語言模型來理解編輯指令,并在視頻的第一幀中精確定位需要編輯的區(qū)域。對于背景更換任務,模型會定位前景物體,以便后續(xù)將其移除,只保留新背景作為參考。對于局部編輯,模型會定位被編輯的物體,將其提取作為參考。這些粗略的邊界框坐標隨后由SAM3系統(tǒng)精細化,生成像素級的精確分割蒙版。

參考圖片生成階段是整個流水線的核心創(chuàng)新大學。研究團隊巧妙地利用了Qwen-Image-Edit-2511這個圖像編輯工具。對于背景任務,他們提取并移除前景物體,然后對該區(qū)域進行修復,生成干凈的背景圖像作為參考。對于局部編輯,他們提取目標物體并將其放置在干凈的背景上,創(chuàng)建一個緊密裁剪的參考圖,突出顯示編輯物體的外觀。這個過程就像是為每個編輯任務定制一個完美的"樣品展示"。

最后是質(zhì)量控制和后處理階段,確保最終產(chǎn)品的高質(zhì)量大學。研究團隊使用多模態(tài)大語言模型驗證合成的參考圖像是否與目標視頻中的編輯內(nèi)容保持一致,過濾掉低保真度的生成結(jié)果。同時,他們提取參考圖像的CLIP特征并執(zhí)行全局去重,防止數(shù)據(jù)泄露和冗余。這個嚴格的流程將最初的370萬個樣本精煉為47.7萬個高質(zhì)量的指令-參考-視頻四元組。

二、技術(shù)架構(gòu)大學:搭建智能視頻編輯的橋梁

Kiwi-Edit的技術(shù)架構(gòu)就像一個精心設計的翻譯和執(zhí)行系統(tǒng),能夠理解人類的多模態(tài)指令并將其轉(zhuǎn)化為具體的視頻編輯操作大學。整個系統(tǒng)由兩個主要組件構(gòu)成:負責理解的多模態(tài)大語言模型和負責生成的擴散變換器。

多模態(tài)大語言模型充當系統(tǒng)的"大腦",負責理解和處理來自不同渠道的信息大學。研究團隊選擇了Qwen2.5-VL-3B作為基礎模型,這個模型能夠同時處理源視頻幀、文字編輯指令和可選的參考圖像。為了避免破壞預訓練的知識,基礎模型的權(quán)重保持凍結(jié)狀態(tài),研究團隊只是注入了輕量級的LoRA(低秩適應)模塊來適應視頻編輯領域。

這個"大腦"處理信息的方式很有趣,它處理一個交錯序列,包含源視頻幀、文本編輯指令和可選的參考圖像大學。從輸出中,研究團隊通過兩個專門的通道提取條件特征。第一個通道叫做查詢連接器,使用一組可學習的查詢tokens來提取編輯意圖。根據(jù)任務的復雜程度,這些查詢tokens的數(shù)量會有所不同:圖像任務使用256個,視頻編輯使用512個,參考引導任務使用768個。這些查詢tokens通過一個多層感知器投影,以與擴散變換器的維度對齊。

第二個通道是潛在連接器,專門處理需要具體視覺引導的任務大學。當任務需要參考特定視覺樣例時,這個連接器會提取參考圖像對應的視覺tokens,通過另一個獨立的投影器進行處理。這兩個連接器的輸出被連接起來,形成統(tǒng)一的上下文tokens序列,作為擴散變換器交叉注意力層的鍵值對,引導生成的語義內(nèi)容。

在結(jié)構(gòu)條件控制方面,研究團隊發(fā)現(xiàn)單純的交叉注意力機制不足以進行精細的空間保持大學。因此,他們引入了一種混合注入策略。對于源視頻控制,他們采用逐元素注入的方式。源幀通過VAE編碼到潛在空間,這些潛在表示由零初始化的PatchEmbed層處理。關(guān)鍵的創(chuàng)新在于,他們不是簡單地連接這些特征,而是將它們逐元素地添加到噪聲潛在表示中,并且這個加法操作由一個可學習的、時間步長依賴的標量調(diào)制。

這種設計的巧妙之處在于時間步長縮放的引入大學。在擴散過程的不同階段,源視頻信息的重要性會有所不同。在早期去噪階段,可能需要更多地依賴源視頻的結(jié)構(gòu)信息,而在后期精細化階段,則可能需要更多地關(guān)注語義引導。這個可學習的標量能夠自動調(diào)整這種平衡。

對于參考圖像控制,研究團隊采用了序列連接的策略大學。參考圖像被patch化并連接到擴散變換器的輸入序列中,這有效地擴展了空間-時間注意力窗口,允許模型直接從參考圖像"復制"紋理細節(jié)。這種設計讓模型能夠精確地將參考圖像中的視覺特征轉(zhuǎn)移到生成的視頻中。

訓練目標采用了流匹配框架,這是一種相對較新的生成模型訓練方法大學。與傳統(tǒng)的擴散模型不同,流匹配通過最小化預測速度場和真實漂移之間的均方誤差來訓練模型。這種方法在實踐中通常能夠獲得更穩(wěn)定的訓練過程和更好的生成質(zhì)量。

三、分階段訓練大學:從入門到精通的學習之路

Kiwi-Edit的訓練過程就像培養(yǎng)一個視頻編輯師從新手到專家的完整歷程大學。研究團隊精心設計了三個循序漸進的訓練階段,每個階段都有明確的學習目標和訓練重點。

第一階段是基礎對齊訓練,就像新員工的入職培訓一樣大學。在這個階段,研究團隊凍結(jié)了多模態(tài)大語言模型和擴散變換器的主干網(wǎng)絡,只訓練連接兩者的橋梁組件。這些組件包括LoRA適配器、查詢連接器、潛在連接器以及可學習的查詢tokens。這個階段使用基于文本的編輯三元組,重點建立語義映射關(guān)系,確保連接器能夠?qū)⒋笳Z言模型的表示轉(zhuǎn)換為擴散變換器能夠理解的格式。

這個階段的訓練數(shù)據(jù)專門來自高質(zhì)量的圖像編輯任務,包括GPT-Image-Edit和NHR-Edit數(shù)據(jù)集大學。選擇圖像編輯作為起點是有深層考慮的:圖像編輯任務相對簡單,能夠讓模型快速學會基礎的語義空間對齊,同時避免了視頻編輯的復雜時間動態(tài)。這就像學習繪畫時先從靜物素描開始,掌握基本技法后再進階到動態(tài)場景。

第二階段是指令調(diào)優(yōu)訓練,模型開始學習真正的視頻編輯技能大學。在這個階段,擴散變換器的層級被解凍,允許聯(lián)合優(yōu)化。模型繼續(xù)在基于文本的編輯三元組上訓練,但訓練數(shù)據(jù)擴展到包含大規(guī)模的指令圖像和視頻編輯數(shù)據(jù)集。這個階段的核心目標是學習通用的編輯基元,比如物體移除、風格轉(zhuǎn)換等基礎操作。

為了提高訓練效率,研究團隊采用了分辨率課程學習策略大學。訓練從低分辨率片段開始,然后逐漸擴展到更高分辨率。具體來說,他們先在480p分辨率上訓練,然后進階到720p。這種策略不僅能夠加速訓練過程,還能讓模型更好地學習從粗糙到精細的特征層次。

第三階段是參考引導微調(diào),這是整個訓練過程的精華部分大學。在這個最終階段,研究團隊引入了精心策劃的RefVIE數(shù)據(jù)集,解鎖模型的精確視覺控制能力。訓練數(shù)據(jù)變成了指令編輯數(shù)據(jù)和新的參考引導四元組的混合,比例經(jīng)過精心調(diào)試。這個階段refined模型利用參考tokens進行精細紋理傳輸?shù)哪芰?,確保生成內(nèi)容能夠與用戶提供的視覺樣例對齊。

整個訓練過程中,研究團隊將從視頻采樣的最大幀數(shù)設置為81幀,這在計算資源和時間建模能力之間取得了很好的平衡大學。全局批處理大小設置為128,學習率設置為2×10^-5,這些超參數(shù)都是經(jīng)過大量實驗驗證的最優(yōu)配置。

在第二階段,圖像和指令視頻數(shù)據(jù)以1:1的比例混合采樣,訓練過程分兩個子階段進行:首先在360K像素分辨率上訓練,然后在960K像素上訓練,每個子階段持續(xù)10K步大學。第三階段的數(shù)據(jù)混合更加復雜,圖像數(shù)據(jù)、指令視頻數(shù)據(jù)和參考引導視頻數(shù)據(jù)按照2:1:1的比例混合,總訓練步數(shù)為10K步。

這種漸進式的訓練策略確保了模型能夠穩(wěn)定地掌握從基礎語義理解到高級視覺控制的完整技能譜系大學。每個階段都建立在前一階段的基礎上,避免了直接訓練復雜任務可能導致的不穩(wěn)定性和性能瓶頸。

四、評估體系大學:全方位檢驗編輯質(zhì)量

為了全面評估Kiwi-Edit的性能,研究團隊建立了一套綜合性的評估體系,就像為視頻編輯效果設計了一系列嚴格的考試大學。這個評估體系不僅要檢驗模型在現(xiàn)有基準測試上的表現(xiàn),還要專門評估參考引導編輯這一全新能力。

研究團隊首先在OpenVE-Benchmark這個權(quán)威的指令視頻編輯基準上進行了全面測試大學。這個基準包含了五個主要的編輯類別:整體風格變換、背景更換、局部更改、局部移除和局部添加。評估使用了Gemini-2.5-Pro作為自動判評器,這是一個先進的多模態(tài)大語言模型,能夠像專業(yè)的視頻編輯師一樣評判編輯質(zhì)量。

在這個基準測試中,Kiwi-Edit取得了令人矚目的成績大學??傮w得分達到3.02分(滿分5分),顯著超過了之前最好的開源模型OpenVE-Edit的2.50分。特別值得注意的是,在背景更換任務上,Kiwi-Edit獲得了3.84分的高分,甚至超過了商業(yè)模型Runway Aleph的2.62分。當推理分辨率提升到1280×704并應用訓練課程時,性能在所有指標上都獲得了持續(xù)提升。

不過,研究團隊也發(fā)現(xiàn)了一個有趣的現(xiàn)象:第三階段的參考引導訓練提高了局部編輯性能,但略微降低了背景更換性能大學。他們將這種現(xiàn)象歸因于數(shù)據(jù)集中局部更改樣本的偏向性。這個發(fā)現(xiàn)提醒我們,即使是最先進的模型也需要在不同任務之間進行平衡和權(quán)衡。

更重要的創(chuàng)新是RefVIE-Bench的建立,這是專門為參考引導視頻編輯設計的全新評估基準大學。這個基準包含110個手工驗證的三元組,涵蓋主題參考(70個樣本)和背景替換(40個樣本)兩個主要類別。與自動生成的訓練數(shù)據(jù)不同,這些基準樣本經(jīng)過了嚴格的三階段人工驗證過程,確保了質(zhì)量和多樣性。

評估指標的設計也很巧妙大學。對于主題參考任務,評估涵蓋身份一致性、時間保真度和物理整合三個維度。身份一致性檢查生成的對象是否與參考圖像在紋理、結(jié)構(gòu)和風格上保持一致。時間保真度評估對象在不同幀之間是否保持穩(wěn)定的形狀和紋理細節(jié)。物理整合則檢查對象是否正確地與場景進行交互,包括運動跟蹤、陰影、反射和遮擋處理。

對于背景替換任務,評估標準調(diào)整為參考保真度、摳圖質(zhì)量和視覺和諧性大學。參考保真度檢查生成的背景是否忠實地再現(xiàn)了參考圖像的結(jié)構(gòu)和風格。摳圖質(zhì)量評估前景主體的邊緣處理和時間穩(wěn)定性。視覺和諧性則考察前景和背景之間的光照、色彩和深度是否自然協(xié)調(diào)。

為了確保評估的邏輯一致性,研究團隊設計了分層約束機制,即時間和物理得分不能超過主要身份得分大學。這種設計防止了模型獲得高時間穩(wěn)定性分數(shù)但語義錯誤的情況。

在RefVIE-Bench上的測試結(jié)果顯示,Kiwi-Edit達到了3.31的整體得分,略微超過了商業(yè)模型Runway Aleph的3.29分大學。在身份一致性方面獲得了3.98分,在參考相似性方面獲得了3.72分,表現(xiàn)出了強大的視覺參考遵循能力。雖然商業(yè)模型Kling-O1取得了更高的絕對分數(shù),但考慮到其顯著更大的參數(shù)規(guī)模和封閉源代碼的訓練語料庫,Kiwi-Edit為開源參考引導視頻編輯建立了一個強有力的基線。

五、實驗驗證大學:從理論到實踐的完整驗證

研究團隊通過大量的實驗驗證了Kiwi-Edit在各個方面的性能表現(xiàn)大學。這些實驗就像是對產(chǎn)品進行的全方位壓力測試,確保在各種使用場景下都能提供穩(wěn)定可靠的服務。

在指令編輯能力的驗證中,研究團隊將Kiwi-Edit與多個開源模型進行了對比,包括VACE、OmniVideo、InsViE、ICVE、Lucy-Edit和DITTO,同時也與商業(yè)模型Runway Aleph進行了比較大學。測試結(jié)果顯示,Kiwi-Edit在幾乎所有評估維度上都取得了開源模型中的最佳表現(xiàn)。

特別值得關(guān)注的是模型在不同分辨率下的表現(xiàn)差異大學。當推理分辨率從720×480提升到1280×704時,模型的整體性能從2.98分提升到3.02分,顯示出分辨率提升對編輯質(zhì)量的積極影響。同時,訓練課程的應用也帶來了持續(xù)的性能提升,證明了分階段訓練策略的有效性。

在參考引導編輯的驗證中,研究團隊將重點放在與領先商業(yè)模型的比較上大學。與Runway Aleph和Kling-O1的對比顯示,Kiwi-Edit在開源模型中建立了強有力的基準。雖然在某些指標上仍有改進空間,但考慮到開源模型在資源和數(shù)據(jù)方面的限制,這樣的表現(xiàn)已經(jīng)相當出色。

定性結(jié)果展示了模型在不同編輯任務上的視覺表現(xiàn)大學。在指令遵循方面,模型能夠準確捕捉源視頻和參考圖像的視覺語義。例如,它能夠正確定位帽子的添加位置和桌子的替換區(qū)域。在參考一致性方面,模型在劇烈的背景風格變化過程中仍能保持高度的主題一致性,這在紅色邊界框標注的比較中得到了清楚的體現(xiàn)。

六、深入分析大學:探究模型設計的關(guān)鍵要素

為了更好地理解模型的工作機制,研究團隊進行了詳細的消融實驗,就像拆解一臺精密機器來研究每個零件的作用大學。這些實驗揭示了設計選擇背后的深層原理。

在條件設計的分析中,研究團隊比較了不同的源視頻輸入調(diào)節(jié)策略大學。實驗結(jié)果顯示,通道連接的表現(xiàn)很差,而共享patch嵌入會顯著降低結(jié)果質(zhì)量,得分降至1.01,證明了獨立特征提取的必要性。帶有時間步長縮放的加法配置表現(xiàn)最佳,在移除任務上獲得2.63分,在風格任務上獲得4.07分,超過了基線配置。

時間步長縮放的重要性通過對比實驗得到了證實大學。移除這個組件會導致模型忽略詳細的源結(jié)構(gòu),而用通道連接替代加法操作則會降低編輯能力。這說明了設計選擇的精妙之處:看似簡單的技術(shù)細節(jié)往往包含著深層的理論考量。

訓練課程的有效性通過系統(tǒng)性的消融驗證得到確認大學。首先,跳過對齊階段會導致災難性的性能下降,證實了在多模態(tài)大語言模型和擴散變換器之間建立粗略語義映射是有效指令遵循的先決條件。其次,排除圖像協(xié)同訓練會降低結(jié)構(gòu)任務的性能,移除任務得分從2.84降至2.58,表明雖然純視頻訓練可以達到較高的風格得分4.07,但缺乏圖像編輯數(shù)據(jù)集提供的精細空間監(jiān)督,這對復雜局部操作至關(guān)重要。

參考條件設計的分析揭示了雙連接器架構(gòu)的價值大學。僅依賴可學習指令查詢的基線得分為3.20,雖然查詢能有效捕獲高層編輯意圖,但往往難以保留精細的視覺細節(jié)。通過潛在連接器引入?yún)⒖紳撛谔卣?,明確地將參考圖像的密集語義先驗注入到上下文中,使得分數(shù)提升至3.30。這證明了稀疏指令查詢與密集視覺潛在表示的結(jié)合對于實現(xiàn)高保真參考遵循的重要性。

架構(gòu)選擇的分析顯示了查詢和參考潛在特征的協(xié)同效應大學。單獨使用查詢連接器的得分為3.20,而添加參考潛在連接器后得分提升至3.30,證明了多模態(tài)條件輸入的價值。這種設計能夠同時處理高層語義指令和低層視覺細節(jié),為精確的參考引導編輯提供了完整的信息基礎。

通過這些深入的分析,研究團隊不僅驗證了模型設計的合理性,還為未來的研究提供了寶貴的經(jīng)驗和洞察大學。每個設計選擇都經(jīng)過了嚴格的實驗驗證,確保了最終系統(tǒng)的穩(wěn)定性和有效性。

這項研究代表了視頻編輯技術(shù)發(fā)展的重要里程碑大學。通過巧妙的數(shù)據(jù)構(gòu)建策略、精心設計的模型架構(gòu)和系統(tǒng)性的訓練方法,研究團隊成功地解決了參考引導視頻編輯這一長期存在的技術(shù)挑戰(zhàn)。更重要的是,他們將所有的數(shù)據(jù)集、模型和代碼都開源發(fā)布,為整個研究社區(qū)提供了寶貴的資源。

隨著Kiwi-Edit的發(fā)布,我們可以期待視頻編輯工具變得更加智能和易用大學。普通用戶將能夠通過簡單的文字描述配合參考圖片,就能獲得專業(yè)級別的視頻編輯效果。這不僅會降低視頻創(chuàng)作的門檻,還可能催生出全新的創(chuàng)意表達方式和商業(yè)應用。從社交媒體內(nèi)容創(chuàng)作到影視后期制作,從教育培訓到廣告營銷,這項技術(shù)的影響將是深遠而廣泛的。

說到底,Kiwi-Edit代表的不僅僅是一個技術(shù)突破,更是人機交互方式的一次重要進步大學。它讓我們離"所想即所得"的創(chuàng)作體驗更近了一步,真正實現(xiàn)了用最自然的方式表達創(chuàng)意想法。隨著技術(shù)的不斷完善和普及,我們有理由相信,未來的視頻編輯會像現(xiàn)在的拍照一樣簡單普及,成為每個人都能輕松掌握的創(chuàng)作技能。

Q&A

Q1:什么是RefVIE數(shù)據(jù)集大學?

A:RefVIE是新加坡國立大學團隊構(gòu)建的大規(guī)模視頻編輯數(shù)據(jù)集,包含47.7萬個高質(zhì)量的四元組樣本大學。每個樣本都包含源視頻、編輯指令、參考圖片和目標視頻四個要素,是目前首個大規(guī)模開源的參考引導視頻編輯資源。

Q2:Kiwi-Edit和傳統(tǒng)視頻編輯軟件有什么區(qū)別大學?

A:傳統(tǒng)視頻編輯軟件需要用戶手動操作各種復雜工具,而Kiwi-Edit只需要用戶提供文字描述和參考圖片,就能自動完成專業(yè)級的視頻編輯大學。就像從手工制作到智能制造的升級,大大降低了視頻編輯的技術(shù)門檻。

Q3:普通人如何使用Kiwi-Edit技術(shù)大學?

A:目前研究團隊已經(jīng)開源了所有代碼和模型,開發(fā)者可以基于這些資源開發(fā)用戶友好的應用程序大學。未來可能會有基于Kiwi-Edit技術(shù)的在線工具或移動應用,讓普通用戶也能輕松體驗參考引導的視頻編輯功能。

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E6%98%A5%E6%9A%96.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩