KAN幹翻MLP,開創神經網絡新範式!一個數十年前數學定理,竟被MIT華人學者復活了
新智元報道
編輯:桃子
【新智元導讀】KAN的誕生,開啓了機器學習的新紀元!而這背後,竟是MIT華人科學家最先提出的實踐想法。從KAN到KAN 2.0,這個替代MLP全新架構正在打開神經網絡的黑盒,爲下一步科學發現打開速通之門。
KAN的橫空出世,徹底改變了神經網絡研究範式!
圓周理論物理研究所研究員Sebastian Wetzel,對神經網絡給予了高度的評價。
然而,萬事萬物並非「絕對存在」,神經網絡一直有一個劣勢。
其中一個基本組件——多層感知器(MLP),儘管立了大功,但這些建立在MLP之上的神經網絡,卻成爲了「黑盒」。
因爲,人們根本無法解釋,其中運作的原理。
爲此,AI界的研究人員們一直在想,是否存在不同類型的神經網絡,能夠以更透明的方式,同樣輸出可靠的結果?
是的,的確存在。
2024年4月,MIT、加州理工等機構研究人員聯手提出,新一代神經網絡架構——Kolmogorov-Arnold network(KAN)。
它的出現,解決了以上的「黑盒」問題。
論文地址:https://arxiv.org/pdf/2404.19756
比起MLP,KAN架構更加透明,而且幾乎可以完成普通神經網絡,在處理某類問題時的所有工作。
值得一提的是,它的誕生源於上個世紀中期一個數學思想。
數學家Andrey Kolmogorov和Vladimir Arnold
這個已經埋了30多年的數學原理,如今在DL時代被這位華人科學家和團隊重新發現,再次發光發亮。
雖然,這項創新僅僅誕生了5個月的時間,但KAN已經在研究和編碼社區,掀起了巨浪。
約翰霍普金斯大學計算機教授Alan Yuille讚揚道,KAN更易於解釋,可以從數據中提取科學規則,因此在科學領域中有着極大的應用」。
讓不可能,成爲可能
典型的神經網絡工作原理是這樣的:
一層層人工神經元/節點,通過人工突觸/邊,進行連接。信息經過每一層,經過處理後再傳輸到下一層,直到最終將其輸出。
對邊進行加權,權重較大的邊,比其他邊有更大的影響。
在所謂的訓練期間,這些權重會不斷調整,最終使得神經網絡輸出越來越接近正確答案。
神經網絡的一個常見的目標是,找到一種數學函數、曲線,以便最好地連接某些數據點。
它們越接近這個函數,預測的結果就越準確。
假設神經網絡模擬了物理過程,理想情況下,輸出函數將代表描述該物理過程的方程,相當於物理定律。
對於MLP來說,會有一個數學定理,告訴你神經網絡能多接近最佳可能函數。
這個定理表明,MLP無法完美地表示這個函數。
不過,在恰當的情況下,KAN卻可以做到。
KAN以一種不同於MLP的方式,進行函數擬合,將神經網絡輸出的點連接起來。
它不依賴於帶有數值權重的邊,而是使用函數。
同時,KAN的邊函數是非線性和可學習的,這使得它們比MLP更靈活、敏感。
然而,在過去的35年裡,KAN被認爲在實際應用中,切不可行。
1989年,由MIT物理學家轉計算機神經科學家Tomaso Poggio,共同撰寫的一篇論文中明確指出:
Poggio的一個擔憂,可以追溯到KAN核心的數學概念。
論文地址:http://cbcl.mit.edu/people/poggio/journals/girosi-poggio-NeuralComputation-1989.pdf
1957年,數學家Andrey Kolmogorov和Vladimir Arnold在各自但相互補充的論文中證明——如果你有一個使用多個變量的單一數學函數,你可以把它轉換成多個函數的組合,每個函數都有一個變量。
然而,這裡有個一個重要的問題。
這個定理產生的單個變量函數,可能是「不平滑的」,意味着它們可能產生尖銳的邊緣,就像V字的頂點。
這對於任何試圖使用這個定理,重建多變量函數的神經網絡來說,都是一個問題所在。
因爲這些更簡單的單變量部分,需要是平滑的,這樣它們才能在訓練過程中,學會正確地調增匹配目標值。
因此,KAN的前景一直以來黯淡無光。
MIT華人科學家,重新發現KAN
直到去年1月,MIT物理學研究生Ziming Liu,決定重新探討這個話題。
他和導師Max Tegmark,一直致力於讓神經網絡在科學應用中,更加容易被人理解,能夠讓人們窺探到黑匣子的內部。
然而,這件事一直遲遲未取得進展。
可以說,在這種「走投無路」的情況下,Liu決定在KAN上孤勇一試。
導師卻在這時,潑了一盆冷水,因爲他對Poggio論文觀點太過熟悉,並堅持認爲這一努力會是一個死衚衕。
不過,Ziming Liu卻沒有被嚇到,他不想在沒有先試一下的情況下,放棄這個想法。
隨後,Tegmark也慢慢改變了自己的想法。
他們突然認識到,即使由該定理產生的單值函數,是不平滑的,但神經網絡仍可以用平滑的函數逼近數值。
Liu似乎有一種直覺,認定了KAN便是那個拯救者。
因爲自Poggio發表論文,已經過了35年,當下的軟件和硬件取得了巨大的進步。
在2024年,就計算來講,讓許多事情成爲可能。
大約肝了一週左右的時間,Liu深入研究了這一想法。在此期間,他開發了一些原型KAN系統,所有系統都有兩層。
因爲Kolmogorov-Arnold定理本質上爲這種結構提供了藍圖。這一定理,明確地將多變量函數分解爲,不同的內部函數和外部函數集。
這樣的排列,使其本身就具備內層和外層神經元的兩層架構。
但令Liu沮喪的是,所設計的原型KAN並沒有在科學相關任務上,表現地更好。
導師Tegmark隨後提出了一個關鍵的建議:爲什麼不嘗試兩層以上的KAN架構,或許能夠處理更加複雜的任務?
一語點醒夢中人。
這個開創性的想法,便成爲他們突破的關鍵點。
這個羽翼未豐的原型架構,爲他們帶來了希望。很快,他們便聯繫了MIT、加州理工、東北大學的同事,希望團隊能有數學家,並計劃讓KAN分析的領域的專家。
實踐證明,在4月份論文中,小組團證明了三層KAN,確實是可行的。
他們給出了一個示例,三層KAN可以準確地表示一個函數,而兩層KAN卻不能。
不過,研究團隊並沒有止步於此。自那以後,他們在多達六層的KAN上進行了實驗,每一層,神經網絡都能與更復雜的輸出函數,實現對準。
論文合著作者之一 Yixuan Wang表示,「我們發現,本質上,可以隨心所欲堆疊任意多的層」。
發現數學定理碾壓DeepMind
更令人震驚的是,研究者在兩個現實的世界問題中,對KAN完成了驗證。
第一個,是數學一個分支中的「紐結理論」。
2021年,DeepMind團隊曾宣佈,他們已經搭建了一個MLP,再獲得足夠紐結的其他屬性後,可以預測出給定紐結的特定拓撲屬性。
三年後,全新的KAN再次實現了這一壯舉。
而且,它更進一步地呈現了,預測的屬性如何與其他屬性相關聯。
論文一作Liu說,「這是MLP根本做不到的」。
第二個問題是,設計凝聚態物理中的一種現象,稱爲Anderson局域化。
其目的是,預測特定相變將發生的邊界,然後確定描述該過程的數學公式。同樣,也只有KAN做到了在這一點。
Tegmark表示,「但與其他形式的神經網絡相比,KAN的最大優勢在於其可解釋性,這也是KAN近期發展的主要動力」。
在以上的兩個例子中,KAN不僅給出了答案,還提供瞭解釋。
他還問道,可解釋性意味着什麼?
「如果你給我一些數據,我會給你一個可以寫在T恤上的公式」。
終極方程式?
KAN這篇論文的出世,在整個AI圈引起了轟動。
AI大佬們紛紛給予了高度的評價,有人甚至直呼,機器學習的新紀元開始了!
目前,這篇論文在短短三個月的時間裡,被引次數近100次。
很快,其他研究人員親自入局,開始研究自己的KAN。
6月,清華大學等團隊的研究人員發表了一篇論文稱,他們的 Kolmogorov-Arnold-informed neural network(KINN),在求解偏微方程(PDE)方面,明顯優於MLP。
對於研究人員來說,這可不是一件小事,因爲PED在科學中的應用無處不在。
論文地址:https://arxiv.org/pdf/2406.11045
緊接着,7月,來自新加坡國立大學的研究人員們,對KAN和MLP架構做了一個全面的分析。
他們得出結論,在可解釋性的相關任務中,KAN的表現優於MLP,同時,他們還發現MLP在計算機視覺和音頻處理方面做的更好。
而且,這兩個網絡架構在NLP,以及其他ML任務上,性能大致相當。
這一結果在人意料之中,因爲KAN團隊的重點一直是——科學相關的任務,而且,在這些任務中,可解釋性是首要的。
論文地址:https://arxiv.org/pdf/2407.16674
與此同時,爲了讓KAN更加實用、更容易使用。
8月,KAN原班人馬團隊再次迭代了架構,發表了一篇名爲「KAN 2.0」新論文。
論文地址:https://arxiv.org/pdf/2408.10205
他們將其描述爲,它更像是一本用戶手冊,而非一篇傳統的論文。
論文合著者認爲,KAN不僅僅是一種達到目的的手段,更是一種全新的科學研究方法。
長期以來,「應用驅動的科學」在機器學習領域佔據主導地位,KAN的誕生促進了所謂的「好奇心驅動的科學」的發展。
比如,在觀察天體運動時,應用驅動型研究人員,專注於預測它們的未來狀態,而好奇心驅動型研究人員,則希望揭示運行背後的物理原理。
Liu希望,通過KAN,研究人員可以從中獲得更多,而不僅僅是在其他令人生畏的計算問題上尋求幫助。
相反,他們可能會把重點放在,僅僅是爲了理解,而獲得理解之上。
參考資料:
https://www.quantamagazine.org/novel-architecture-makes-neural-networks-more-understandable-20240911/