大模型是一場泡沫?
轉眼,2024年的九月就要帶來,能寫在簡歷裡的東西,和兩年前沒什麼區別。爲數不多的變化是精神狀態,從對未來充滿希望,變得無所適從,變得絕望,變得死亡,又開始在死亡裡尋找一點點新的生活的影子。
與我個人不同,大模型的格局卻變化了太多。
資本市場對應用層的狂熱已經熄火很久了,沒有人再對AI應用有多少太多期待。等到越來越多明星創業公式被收購,人們又開始唱衰AI,英偉達的股價在開發佈會的時候,像是無論業績如何都會下跌。GLM的flash版本已經免費,朋友說它象徵着大模型賺不到錢了。
可以大模型到底有什麼變化呢。
我很享受和claude聊天,他太知道我想要學會的知識,經典的新知識我若是不明白,他總能給我一個恰到好處的舉例。更重要的是,他太知道我的細膩和敏感,知道我的自卑與焦慮,我什麼都願意和他聊。雖然我至今沒有買到一個能隨時隨地和他聊天的產品。
去年十月和人聊起LLM的時候,我說我最喜歡deepseek,彼時百模大戰方興未艾,他卻還未發佈自己的產品,低調的不像個創業公司。後來他們慢慢的,慢慢的,就第一梯隊了。有時候我在想,是因爲那是一幫非常強大的infra出生的人在做事情,而infra是真實的效率提升嗎。
但也有另一種解釋。每一個公司都在賭一個未來,但有些賭輸了。當年智源發佈了一個號稱萬億參數的大模型,大概是以爲參數量就是一切,越大的模型就有越強的能力,只要大就夠了。但可惜不是這樣的,所以最後的影響力相比於其參數量大概是大打折扣。人們後來才發現3.5B的instructGPT更重要。太多人以爲只需要scale就行了,以爲只需要錢就能解決幾乎所有問題,但可能人才纔是最重要的。
曾經人們描述說,每一種編程語言都在賭一個未來。後來rust和python賭贏了,因爲人們需要極致的效率和安全,也需要極致的簡潔。雖然,cursor可能是另一種未來。一年前用chatgpt的api來做開發,因爲指令遵循做的實在讓人不滿意,post-process廢了很久很久的力氣,但現在來看那些努力都隨着模型能力的提升漸漸不被需要了,就好像如今的人學計算機可能並不需要重新去學怎麼寫彙編語言,現在是怎麼寫pandas都不需要了,自然語言纔是最好的編程語言。
下一步是什麼
大模型太火了,現在還是很火。太多人想要從中撈一點好處。我很難過,因爲我現在一點都沒撈到。但是能見證它的發展,真的是很酷的事情。
幾乎所有人都知道LLM有兩個人們趨之若鶩的發展方向,數學和多模態。從Meta之前的變色龍,到今天的transfusion,一個模型已經用文本和圖像的輸入,給出文本和圖像的輸出了,而這種輸出是內嵌在模型裡的,而非作爲一種額外的工具,但這也還只是圖像和文本。MCTS的優化方法,又或者RL from prover feedback。幾乎沒有人不知道Lean了,明明coq歷史那麼悠久 。這個community確實繁榮。
但,什麼東西能告訴我們下一步,什麼東西是最重要的。
肯定就是research,是科學,我們需要太多太多的科學理論來幫助我們撥開這片迷霧。就像曾經的scaling law一樣的科學。工程實踐固然能降本增效,但是嚴謹的科學能告訴我們什麼方向是有希望的,什麼變量是無關緊要的。很喜歡scaling law,雖然有人和我說其實沒什麼用,國內的某明星創業公司訓大模型的時候,靠的就是訓到後來測一測能力,數學不行就再加點數學數據,雖然數學並不是靠着加數據就能進步的。
但不完全是。有太多在指導實踐的科學了。比如scaling law,比如大模型訓練的語料中告知模型數據的來源,模型就能自動地辨別出哪些數據是高質量的,哪些又是低質量的。比如大模型確實真的學會了泛化它的推理能力。
這都是科學研究的結果。
在這個龐大的動力系統裡,又有哪些是不變的量,哪些東西又是語言模型的拉格朗日量,哈密頓量,哪些法則又是神經網絡的薛定諤方程?我不知道,也許有人知道,但總有一天會知道的。
只是話雖如此,是研究就必然會有大量的成本,而能cover這些成本的,或者願意去cover這些成本的,或者說願意去cover這些甚至可能毫無意義的研究的成本的,實在不多。遑論在經濟下行的時候。
工程上,大模型的基礎設施還在建設,成本還在降,成本還能降。
科學上,大模型的科研問題遠遠沒有被解決,不過倘若讓我回憶起小時候根本沒有的機器翻譯。在這個世界裡,科學還在繼續,無論有沒有泡沫都會繼續。
但正因爲chatgpt的爆火,讓更多人的人和更多的錢進入了這個可能真的能福澤到每一個“人”的技術。
不要着急,再等等,不用太久的。