☰

擴散模型攻克算法難題，AGI不遠了！谷歌大腦找到迷宮最短路徑

文章來源於新智元

「擴散模型」也能攻克算法難題？

一位博士研究人員做了一個有趣的實驗，用「離散擴散」尋找用圖像表示的迷宮中的最短路徑。

作者介紹，每個迷宮都是通過反覆添加水平和垂直牆生成的。

其中，起始點和目標點隨機選取。

從起點到目標點的最短路徑中，隨機採樣一條作爲解決方案的路徑。最短路徑是通過精確算法算出來的。

然後使用離散擴散模型和U-Net。

將起點和目標的迷宮被編碼在一個通道中，而模型在另一個通道中用解來消除迷宮的噪聲。

再難一點的迷宮，也能做的很好。

爲了估算去噪步驟 p(x_{t-1} | x_t)，算法會估算 p(x_0 | x_t)。在這個過程中可視化這一估計值（底行），顯示「當前假設」，最終聚焦在結果上。

英偉達高級科學家Jim Fan表示，這是一個有趣的實驗，擴散模型可以「渲染」算法。它可以僅從像素實現迷宮遍歷，甚至使用了比Transforme弱得多的U-Net。

我一直認爲擴散模型是渲染器，而Transformer是推理引擎。看起來，渲染器本身也可以編碼非常複雜的順序算法。

這個實驗簡直驚呆了網友，「擴散模型還能做什麼？！」

還有人表示，一旦有人在足夠好的數據集上訓練擴散Transformer，AGI就解決了。

不過這項研究還未正式發佈，作者表示稍後更新在arxiv上。

值得一提的是，這個實驗中，他們採用了谷歌大腦團隊曾在2021年提出的離散擴散模型。

就在最近，這項研究重新更新了一版。

離散擴散模型

「生成模型」是機器學習中的核心問題。

它既可用於衡量我們捕獲自然數據集統計數據的能力，也可用於需要生成圖像、文本和語音等高維數據的下游應用程序。

GAN、VAE、大型自迴歸神經網絡模型、歸一化流等方法，在樣本質量、採樣速度、對數似然，以及訓練穩定性方面都各有千秋。

最近，「擴散模型」已成爲圖像、音頻生成，最受歡迎的替代方案。

它可以用更少的推理步驟，實現了與GAN相當的樣本質量，以及與自迴歸模型相當的對數似然。

論文地址：https://arxiv.org/pdf/2107.03006.pdf

雖然已有人提出了離散和連續狀態空間的擴散模型，但最近的研究主要集中在，連續狀態空間中運行的高斯擴散過程（如實值圖像和波形數據）。

離散狀態空間的擴散模型，已在文本和圖像分割領域進行了探索，但是還沒有在文本和圖像的大規模生成任務中，證明是一個有競爭力的模型。

谷歌研究團隊提出了一種全新的離散去噪擴散概率模型（D3PM）。

研究中，作者證明了過度矩陣的選擇是一個重要的設計決策，它能改善圖像和文本領域的結果。

此外，他們還提出了一種新的損失函數，它結合了變分下界和輔助的交叉熵損失。

在文本方面，這個模型在字符級文本生成方面取得了很好的效果，同時可以擴展到大詞彙量的LM1B數據集上。

在CIFAR-10圖像數據集上，最新模型接近了連續空間DDPM模型的樣本質量，並超過了連續空間 DDPM 模型的對數似然。

項目作者

Arnaud Pannatier

Arnaud Pannatier從2020年3月在導師François Fleuret的機器學習小組開始攻讀博士學位。

他最近開發了HyperMixer，使用超級網絡讓MLPMixer能夠處理各種長度輸入。這使得模型能夠以一種排列不變的方式處理輸入，並證明了它給了模型一種隨着輸入長度線性擴展的注意力行爲。

在EPFL，他先後獲得了物理學學士學位和計算機科學與工程碩士學位（CSE-MASH）。

參考資料：

https://arxiv.org/pdf/2107.03006.pdf

https://x.com/DrJimFan/status/1762888644933902681?s=20

相關資訊