AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文是一篇關(guān)于自回歸模型在視覺領(lǐng)域發(fā)展的綜述論文,由港大、清華、普林斯頓、杜克、俄亥俄州立、UNC、蘋果、字節(jié)跳動、香港理工大學(xué)等多所高校及研究機構(gòu)的伙伴聯(lián)合發(fā)布。隨著計算機視覺領(lǐng)域的不斷發(fā)展,自回歸模型作為一種強大的生成模型,在圖像生成、視頻生成、3D 生成和多模態(tài)生成等任務(wù)中展現(xiàn)出了巨大的潛力。然而,由于該領(lǐng)域的快速發(fā)展,及時、全面地了解自回歸模型的研究現(xiàn)狀和進(jìn)展變得至關(guān)重要。本文旨在對視覺領(lǐng)域中的自回歸模型進(jìn)行全面綜述,為研究人員提供一個清晰的參考框架。
論文標(biāo)題:Autoregressive Models in Vision: A Survey
論文鏈接: https://arxiv.org/abs/2411.05902
項目地址:https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey
研究的主要亮點如下:最新最全的文獻(xiàn)綜述:本文對視覺領(lǐng)域中的自回歸模型進(jìn)行了全面的文獻(xiàn)綜述,涵蓋了約 250 篇相關(guān)參考文獻(xiàn),包括一些新興領(lǐng)域的相關(guān)文獻(xiàn),比如 3D 醫(yī)療、具身智能等。通過對這些文獻(xiàn)的整理和分析,本文能夠為讀者提供一個系統(tǒng)的了解自回歸模型在視覺領(lǐng)域的發(fā)展歷程和研究現(xiàn)狀的有效幫助。
基于序列表征的分類:本文根據(jù)序列表示策略對自回歸模型進(jìn)行了分類,包括基于 pixel、基于 token 和基于 scale 的視覺自回歸模型。同時,本文還對不同類型的自回歸模型在圖像生成、視頻生成、3D 生成和多模態(tài)生成等任務(wù)中的性能進(jìn)行了比較和分析。通過這些分類和比較,本文能夠幫助讀者更好地理解不同類型的自回歸模型的特點和優(yōu)勢,為選擇合適的模型提供參考。
左邊圖展示的是 3 種主流的用于自回歸視覺模型的表征方法。右邊圖展示的是自回歸視覺模型的主要組成:序列表征方法和自回歸序列建模方式。各種領(lǐng)域的應(yīng)用總結(jié):本文詳細(xì)介紹了自回歸模型在圖像生成、視頻生成、3D 生成和多模態(tài)生成等任務(wù)中的應(yīng)用。通過對這些應(yīng)用的總結(jié)和分析,本文能夠為讀者展示自回歸模型在不同領(lǐng)域的應(yīng)用潛力和實際效果,為進(jìn)一步推動自回歸模型的應(yīng)用提供參考。下面是本文的文獻(xiàn)分類框架圖:
挑戰(zhàn)與展望:本文討論了自回歸模型在視覺領(lǐng)域面臨的挑戰(zhàn),如計算復(fù)雜度、模式崩潰等,并提出了一些潛在的研究方向。通過對這些挑戰(zhàn)和展望的討論,本文能夠為讀者提供一個思考和探索的方向,促進(jìn)自回歸模型在視覺領(lǐng)域的進(jìn)一步發(fā)展。2. 視覺自回歸模型基礎(chǔ)知識視覺自回歸模型有兩個核心的組成部分:序列表示和自回歸序列建模方法。首先,讓我們來了解這兩個關(guān)鍵方面:序列表示:將視覺數(shù)據(jù)轉(zhuǎn)化為離散元素序列,如像素、視覺詞元等。這種表示方法類似于自然語言處理(NLP)中的文本生成中把詞分成詞元進(jìn)行后續(xù)處理,為自回歸模型在計算機視覺領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。舉例來說,對于圖像數(shù)據(jù),可以將其劃分為像素序列或者圖像塊序列,每個像素或圖像塊作為序列中的一個元素。這樣,就可以利用自回歸模型依次預(yù)測每個元素,從而實現(xiàn)圖像的生成或重建。自回歸序列建模:基于先前生成的元素,通過條件概率依次預(yù)測每個元素。具體來說,對于一個序列中的第 t 個元素,自回歸模型會根據(jù)前面 t-1 個元素的信息來預(yù)測第 t 個元素的概率分布。訓(xùn)練目標(biāo)是最小化負(fù)對數(shù)似然損失。通過不斷調(diào)整模型參數(shù),使得模型預(yù)測的概率分布盡可能接近真實數(shù)據(jù)的分布,從而提高模型的性能。2.1 通用框架分類了解了自回歸模型的基礎(chǔ)之后,我們接下來看看不同的通用框架分類。下面我們分別介紹基于像素、基于視覺詞元和基于尺度的模型。2.1.1 基于像素(pixel)的模型:這類模型直接在像素級別表示視覺數(shù)據(jù),如 PixelRNN 和 PixelCNN 等。PixelRNN 通過遞歸神經(jīng)網(wǎng)絡(luò)(RNN)捕捉像素間的依賴關(guān)系,從圖像的左上角開始,依次預(yù)測每個像素的值。PixelCNN 則使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來實現(xiàn)像素級別的自回歸建模,通過對圖像進(jìn)行卷積操作來獲取像素間的局部依賴關(guān)系。但是這類模型在高分辨率圖像生成時面臨計算成本高和信息冗余的挑戰(zhàn)。由于需要對每個像素進(jìn)行預(yù)測,隨著圖像分辨率的提高,計算量會呈指數(shù)增長。同時,像素之間的相關(guān)性可能導(dǎo)致信息冗余,影響模型的效率和性能。2.1.2 基于視覺詞元(token)的模型:將圖像壓縮為離散視覺詞元序列,如 VQ-VAE 及其變體。這類模型先使用編碼器將圖像映射到潛在空間并量化為離散代碼,再用解碼器重建圖像。在此基礎(chǔ)上,采用強大的自回歸模型預(yù)測下一個離散視覺詞元。例如,VQ-VAE 通過向量量化將圖像編碼為離散的視覺詞元序列,然后使用自回歸模型對視覺詞元序列進(jìn)行建模,實現(xiàn)圖像的生成和重建。但是這類模型存在碼本利用率低和采樣速度慢的問題。碼本中的視覺詞元可能沒有被充分利用,導(dǎo)致生成的圖像質(zhì)量受限。同時,由于需要依次預(yù)測每個視覺詞元,采樣速度相對較慢。2.1.3 基于尺度(scale)的模型:以不同尺度的視覺詞元圖作為自回歸單元,如 VAR。通過多尺度量化自動編碼器將圖像離散化為視覺詞元學(xué)習(xí)不同分辨率的信息,生成過程從粗到細(xì)逐步進(jìn)行。例如,VAR 首先在低分辨率下生成粗糙的視覺詞元圖,然后逐步細(xì)化到高分辨率,從而提高生成圖像的質(zhì)量和效率。相比基于視覺詞元的模型,它能更好地保留空間局部性,提高視覺詞元生成效率。通過多尺度的建模方式,可以更好地捕捉圖像的局部結(jié)構(gòu)和細(xì)節(jié)信息。不同的通用框架分類各有特點,而自回歸模型與其他生成模型也有著緊密的關(guān)系。接下來,我們探討自回歸模型與其他生成模型的關(guān)系。2.3 與其他生成模型的關(guān)系自回歸模型與變分自編碼器(VAEs)、生成對抗網(wǎng)絡(luò)(GANs)、歸一化流、擴散模型和掩碼自編碼器(MAEs)等生成模型在不同方面有著聯(lián)系和區(qū)別。變分自編碼器(VAEs):VAEs 學(xué)習(xí)將數(shù)據(jù)映射到低維潛在空間并重建,而自回歸模型直接捕捉數(shù)據(jù)分布。兩者結(jié)合的方法如 VQ-VAE,能有效利用兩者優(yōu)勢進(jìn)行圖像合成。VQ-VAE 首先通過編碼器將圖像映射到潛在空間,然后使用向量量化將潛在空間離散化為視覺詞元序列,最后使用自回歸模型對視覺詞元序列進(jìn)行建模,實現(xiàn)圖像的生成和重建。生成對抗網(wǎng)絡(luò)(GANs):GANs 生成速度快,但訓(xùn)練不穩(wěn)定且可能出現(xiàn)模式崩潰。自回歸模型采用似然訓(xùn)練,過程穩(wěn)定,雖采樣速度慢,但模型性能隨數(shù)據(jù)和模型規(guī)模提升。在圖像生成任務(wù)中,GANs 可以快速生成逼真的圖像,但可能會出現(xiàn)模式崩潰的問題,即生成的圖像缺乏多樣性。自回歸模型則可以通過似然訓(xùn)練保證生成的圖像具有較高的質(zhì)量和多樣性。歸一化流 (Normalizing Flows):通過一系列可逆變換將簡單分布映射到復(fù)雜數(shù)據(jù)分布,與自回歸模型都可通過最大似然估計直接優(yōu)化。但歸一化流需保證可逆性,自回歸模型則通過離散化數(shù)據(jù)和順序預(yù)測更具靈活性。歸一化流需要設(shè)計可逆的變換函數(shù),這在實際應(yīng)用中可能會比較困難。而自回歸模型可以通過離散化數(shù)據(jù)和順序預(yù)測的方式,更加靈活地捕捉數(shù)據(jù)的分布特征。擴散模型 (Diffusion Models):與自回歸模型類似,兩類模型都能生成高質(zhì)量樣本,但是兩者在生成范式上有根本區(qū)別。當(dāng)前自回歸模型已經(jīng)逐漸在性能上追趕上擴散模型,且展現(xiàn)了很好的scaling到更大模型的潛力。近期研究嘗試結(jié)合兩者的優(yōu)勢,進(jìn)一步提高生成模型的性能。
掩碼自編碼器(MAEs):MAEs 通過隨機掩碼輸入數(shù)據(jù)并重建來學(xué)習(xí)數(shù)據(jù)表示,與自回歸模型有相似之處,但訓(xùn)練方式和注意力機制不同。例如,MAEs 在訓(xùn)練時隨機掩碼一部分輸入數(shù)據(jù),然后通過重建被掩碼的部分來學(xué)習(xí)數(shù)據(jù)的表示。自回歸模型則是通過順序預(yù)測的方式來學(xué)習(xí)數(shù)據(jù)的分布。兩者在訓(xùn)練方式和注意力機制上存在差異。3.視覺自回歸模型的應(yīng)用自回歸模型在圖像生成、視頻生成、3D 生成和多模態(tài)生成等任務(wù)中都有著廣泛的應(yīng)用。結(jié)合經(jīng)典的和最新的相關(guān)工作,我們做出以下的分類,感興趣的讀者可以在論文中閱讀每個子類的詳情。3.1 圖像生成
無條件圖像生成:像素級生成逐個像素構(gòu)建圖像,如 PixelRNN 和 PixelCNN 等。視覺詞元級生成將圖像視為視覺詞元序列,如 VQ-VAE 及其改進(jìn)方法。尺度級生成從低到高分辨率逐步生成圖像,如 VAR。
文本到圖像合成:根據(jù)文本條件生成圖像,如 DALL·E、CogView 等。近期研究還探索了與擴散模型、大語言模型的結(jié)合,以及向新任務(wù)的擴展。
圖像條件合成:包括圖像修復(fù)、多視圖生成和視覺上下文學(xué)習(xí)等,如 QueryOTR 用于圖像外繪,MIS 用于多視圖生成,MAE-VQGAN 和 VICL 用于視覺上下文學(xué)習(xí)。
圖像編輯:分為文本驅(qū)動和圖像驅(qū)動的圖像編輯。文本驅(qū)動如 VQGAN-CLIP 和 Make-A-Scene,可根據(jù)文本輸入修改圖像。圖像驅(qū)動如 ControlAR、ControlVAR 等,通過控制機制實現(xiàn)更精確的圖像編輯。
3.2 視頻生成
無條件視頻生成:從無到有創(chuàng)建視頻序列,如 Video Pixel Networks、MoCoGAN 等。近期方法如 LVT、VideoGPT 等結(jié)合 VQ-VAE 和 Transformer 提高了生成質(zhì)量。
條件視頻生成:根據(jù)特定輸入生成視頻,包括文本到視頻合成、視覺條件視頻生成和多模態(tài)條件視頻生成。如 IRC-GAN、CogVideo 等用于文本到視頻合成,Convolutional LSTM Network、PredRNN 等用于視覺條件視頻生成,MAGE 用于多模態(tài)條件視頻生成。
具身智能:視頻生成在具身智能中用于訓(xùn)練和增強智能體,如學(xué)習(xí)動作條件視頻預(yù)測模型、構(gòu)建通用世界模型等。
3.3 3D 生成在運動生成、點云生成、場景生成和 3D 醫(yī)學(xué)生成等方面取得進(jìn)展。如 T2M-GPT 用于運動生成,CanonicalVAE 用于點云生成,Make-A-Scene 用于場景生成,SynthAnatomy 和 BrainSynth 用于 3D 醫(yī)學(xué)生成。3.4 多模態(tài):
多模態(tài)理解框架:通過離散圖像視覺詞元掩碼圖像建模方法學(xué)習(xí)視覺表示,如 BEiT 及其變體。
統(tǒng)一多模態(tài)理解和生成框架:將視覺和文本輸出生成相結(jié)合,如 OFA、CogView 等早期模型,以及 NEXTGPT、SEED 等近期模型。最近還出現(xiàn)了原生多模態(tài)自回歸模型,如 Chameleon 和 Transfusion。
3. 評估指標(biāo)評估視覺自回歸模型的性能需要綜合考慮多個方面的指標(biāo)。我們從視覺分詞器重建和模型生成的角度分別進(jìn)行度量:視覺分詞器重建評估:主要關(guān)注重建保真度,常用指標(biāo)包括 PSNR、SSIM、LPIPS 和 rFID 等。例如,PSNR(峰值信噪比)用于衡量重建圖像與原始圖像之間的像素差異,SSIM(結(jié)構(gòu)相似性指數(shù))則考慮了圖像的結(jié)構(gòu)信息和亮度、對比度等因素。視覺自回歸生成評估:包括視覺質(zhì)量(如負(fù)對數(shù)似然、Inception Score、Fréchet Inception Distance 等); 多樣性(如 Precision 和 Recall、MODE Score 等); 語義一致性(如 CLIP Score、R-precision 等); 時間一致性(如 Warping Errors、CLIPSIM-Temp 等); 以人為中心的評估(如人類偏好分?jǐn)?shù)、Quality ELO Score 等)。另外,我們在論文中總結(jié)了自回歸模型、Diffusion、GAN、MAE 等生成方法在四個常用的圖像生成基準(zhǔn)上(例如 MSCOCO)的表現(xiàn),揭示了當(dāng)前自回歸視覺生成方法與 SOTA 方法的差距。
5. 挑戰(zhàn)與未來工作自回歸模型在計算機視覺領(lǐng)域雖然取得了一定的成果,但也面臨著一些挑戰(zhàn):5.1 視覺分詞器設(shè)計:設(shè)計能有效壓縮圖像或視頻的視覺分詞器是關(guān)鍵挑戰(zhàn),如 VQGAN 及其改進(jìn)方法,以及利用層次多尺度特性提高壓縮效果。例如,可以通過改進(jìn)向量量化算法、引入注意力機制等方式,提高視覺分詞器的性能和壓縮效果。5.2 離散與連續(xù)表征的選擇:自回歸模型傳統(tǒng)上采用離散表示,但連續(xù)表示在簡化視覺數(shù)據(jù)壓縮器訓(xùn)練方面有優(yōu)勢,同時也帶來新挑戰(zhàn),如損失函數(shù)設(shè)計和多模態(tài)適應(yīng)性。例如,可以探索連續(xù)表示下的自回歸模型,設(shè)計合適的損失函數(shù),提高模型在多模態(tài)數(shù)據(jù)上的適應(yīng)性。5.3 自回歸模型架構(gòu)中的歸納偏差:探索適合視覺信號的歸納偏差架構(gòu),如 VAR 利用層次多尺度視覺詞元化,以及雙向注意力的優(yōu)勢。例如,可以研究不同的歸納偏差架構(gòu)對自回歸模型性能的影響,尋找最適合視覺信號的架構(gòu)。5.4 下游任務(wù):當(dāng)前視覺自回歸模型在下游任務(wù)上的研究相對滯后,未來需開發(fā)能適應(yīng)多種下游任務(wù)的統(tǒng)一自回歸模型。例如,可以將自回歸模型應(yīng)用于目標(biāo)檢測、語義分割等下游任務(wù),探索如何提高模型在這些任務(wù)上的性能。6. 總結(jié)本文對計算機視覺中的自回歸模型進(jìn)行了全面綜述,介紹了自回歸模型的基礎(chǔ)、通用框架分類、與其他生成模型的關(guān)系、應(yīng)用領(lǐng)域、評估指標(biāo)以及面臨的挑戰(zhàn)和未來工作。自回歸模型在計算機視覺領(lǐng)域具有廣闊的應(yīng)用前景,但仍需進(jìn)一步研究解決現(xiàn)有問題,以推動其發(fā)展和應(yīng)用。