第四範式戴文淵:AI產業落地需要五大先決條件

本站科技訊12月17日消息,由中國人工智能學會主辦,本站科技承辦的2016中國人工智能產業大會暨第六屆吳文俊人工智能科學技術獎頒獎盛典今日在深圳登喜路國際大酒店舉行。

本次大會以“AI新時代·產業新動能”爲主題,會上第四範式創始人兼CEO戴文淵發表題爲“AI+:贏在維度”的主題演講,從人工智能數據技術發展遇見的問題入手,開闢了一個人工智能領域的重要方向:遷移學習。以“小數據”爲方向的遷移學習,打破了目前深度學習只能使用大數據的瓶頸,以高維度的人工智能幫助未來企業在下一場科技革命中搶佔先機。

戴文淵表示,如果企業內部用人工智能知道企業經營,最重要的就是我們要去做高VC維模型,我們要不斷的去提高模型的維度,使得training loss和test loss不斷的降低。VC維度是什麼東西?大腦的維度大概就是大腦腦細胞的個數,所以可以把VC維度理解爲腦細胞維度。而機器的維度也需要更多的腦細胞,才能更聰明,才能學習更多的知識。機器的誤差隨着模型維度的提升而降低。

戴文淵認爲深度學習其實是一種將VC維做高的算法,強化學習是一個不斷的把VC維做得越來越大的模型。以谷歌的阿爾法狗,如果只做深度學習,他是基於KJS的網站上棋局做的模型,那只有30萬局棋,強化學習以後,通過自己和自己下,不斷地去提升,最後能夠達到8000萬局棋,所以這就是強化學習要做的事情,這都是要把維度做大。

對於近期討論的遷移學習,戴文淵表示並非所有場景都有大數據的,比如說醫療,有很多並沒有那麼多數據,遷移學習就是讓小數據也能做到高緯度。例如機器只有你的數據,絕對不可能給你服務得好,服務得好是因爲有了你的數據,可以找到很多跟你相近的數據。這是遷移學習的問題,因爲每個人提供的數據是有限的,不是一個大數據,真正的幫助是來自於周圍。

戴文淵認爲人工智能要在產業落地需要五大條件,首先是要有數據,要有明確的業務定義,也需要懂算法,要懂如何去設計架構,要懂得如何設計產品。人工智能真正在產業落地,不僅僅是一個學科的事情,而是五項綜合的結果。當前要解決的是把前提條件減少,能讓我們解決科學家的問題,解決計算資源的問題,解決外部反饋的問題,能讓一家企業只要有普通的IT專家就能夠把模型做出來,讓人工智能觸手可及。(Sherwood)

以下爲演講實錄:

大家下午好,非常高興有機會在這邊來分享我們過去做的一些事情以及經驗,今天我分享的主題是AI贏在維度,AI在今天已經是非常火熱的話題,但是在我自己進入到AI的時候,可能人工智能是我們當時選擇當中最冷門的專業之一,計算機領域最冷門的專業之一,甚至我們在做第四範式這家公司的時候,都不太跟客戶講我們是人工智能的公司,我們得跟客戶講,我們是一家大數據價值挖掘或者發現的公司,不然的話他就會跟你說,人工智能我們不關心,人工智能我們沒有預算。而今天人工智能包括會發現被大家討論得比較多,深度學習,這些技術爲什麼會對我們有幫助,究竟背後在什麼地方能夠去改變這個世界,這其實是過去研究得比較多的,並且我自己的專業更多是在看不見摸不着的人工智能,而不是看得見摸得着的無人車這些東西。

我今天想分享一個案例,這是去年發生的一件事情,就是亞馬遜的市值超過了沃爾瑪,可能更多的人會覺得亞馬遜超過沃爾瑪是互聯網顛覆傳統企業的事,這背後其實是人工智能。沃爾瑪是一家很先進的公司,大家在看數據挖掘教科書的時候會有一個案例叫啤酒和尿布,在這裡我不分享這個案例,我想分享的是啤酒和尿布這個案例是從沃爾瑪出來的,所以沃爾瑪在上個世紀90年代已經做到了基於他的數據,使得每家店鋪貨櫃的擺放不一樣,這麼先進的一家公司怎麼會被亞馬遜超過呢?我們換一個視角看這個問題,沃爾瑪做到的是每家店的貨櫃擺放都是基於這家店的數據來定的,亞馬遜做到的是什麼?在2010年之前並不是比沃爾瑪成功的事,他是基於他的數據能夠讓大家看到亞馬遜的商品都是不一樣的,亞馬遜是給每個人開了一家店,亞馬遜有3億多的用戶,而沃爾瑪有一萬多家店,所以我們看到亞馬遜在解決一個比沃爾瑪複雜3萬多倍的問題,這個解決的思路其實雙方是差不多的,都是開不同的店,開很多家不一樣的店,但是要解決3億多家店,就不是那麼好解決,不太可能人工去設計佈置3萬多家店,這由誰來解決?由機器解決。機器比人擅長的是什麼?機器沒有精力的侷限,人不是說如何去開更多的店,而是人沒有精力開那麼多店,用機器解決就是人工智能幫助亞馬遜超過沃爾瑪最重要的地方。

我們可以換一個角度看問題,這可能是平時不太會關注到的,在倉儲這方面亞馬遜也在解決更復雜的問題,沃爾瑪的倉儲是什麼呢?我有一個倉庫,所有的保管員、倉庫配貨員都會去倉庫整理東西,但是亞馬遜的機器人是你需要這個貨物就搬過來,如果亞馬遜有個N個配貨員就有N種不一樣的貨架,這個擺放也是基於數據來做的,最後造成一個差別就是亞馬遜比沃爾瑪提升4倍。過去我們談互聯網,移動互聯網,現在談人工智能,其實互聯網和移動互聯網時代,有大量的空地,我們做一個網站,可以圈一批客戶,我們做一個APP可以圈一批客戶,而到今天這個機會已經沒有了,未來的機會在哪?不是說還有更多的客戶可以去圈,而是我可以做得更好。如果要讓一家企業做得比競爭對手更好,就會把預算搶過來,就像亞馬遜從沃爾瑪那邊搶過來一樣。

還有一個案例是臉書,現在是很風光的狀態,甚至都已經不記得它剛上市的狀態,其實它剛上市的時候股價是一路往下走的,我在2012年面試過一些臉書的工程師,我面完了以後就知道他不是不能賺錢,而是他當時的技術不足以很高的變現效率。我當時問了工程師一個問題,臉書的廣告有多少的變量?他們告訴我有兩千多的變量,於是他就沒有通過面試,因爲我們當時已經做到了一百多億的變量,這是巨大的差別。但是臉書發生了一個很大的差別,這是谷歌幫了他們,谷歌印度人與白人團隊的戰爭,白人團隊就到了臉書,幫助他們從變量數從兩千多個提升多了兩千多億個變量,這一下子讓臉書的變現能力大幅度提升,之後他們的財報都超過了華爾街的預期。所以這裡很關鍵的地方是維度,你原來是用機器學習,也是用大數據做的廣告模型,但是你做得不夠高不夠細,如果你能夠把維度做得更高,你就能做得更精細,你的效率就能提升,獲得更多的廣告市場。

今天已經不再是亞馬遜,谷歌或者BAT的時代,如果退回五六年前做AI,就只能去BAT,在美國可能是谷歌臉書這樣的故事,今天其實有更多的企業擁有數據。這是我們給銀行做的案例,是深圳的一家股份制商業銀行,我們幫助他做什麼呢?他們也有很多的營銷數據,他們要去精準識別他們的客戶當中有哪些是分期客戶,歷史上有大量的客戶辦分期或者不辦分期,我們基於他的數據幫助他們更好的識別。這裡面有一個比較重要的對比,過去他們不是不做營銷,他們也是做營銷的,但是他們的模型維度只有兩百多個,而我們通過數據,通過機器學習,幫助他把維度提升到了五千萬,從兩百到五千萬的精細營銷,甚至我們可以幫他發現一些業務規律。當有一筆交易出現在某一個POS機,這個POS機一個月只有兩百人使用的時候,是一個商機,我們能找到這麼精細的場景,這種場景過去是不太可能通過人來解決的,這是機器能夠用更高效、更低成本的方式來做到。

前面講到幾個案例,最大的差別就是過去我們在做的事情是低維的事情,而現在做的是高維的事情,這可能跟我在學生時代學習的一些基本原理是相違背的,過去我們學數據挖掘的時候,有一個叫奧卡姆剃刀原理,它講的是儘可能簡單,而不是做深維的事情,而我們現在不是做化繁爲簡,而是把問題做複雜。比如說奧卡姆剃刀原理區分紅點和藍點的時候,到底是選擇綠色的線區分還是黑色線區分的時候,過去的教科書是說黑色比綠色好,現在我們認爲是綠色比黑色好。爲什麼呢?過去的奧卡姆原理在做神經網絡的時候,其實神經網絡在50年代就又開始做,爲什麼我們要把神經網絡去控制在三層以內,是那個年代的數據量不夠,那個年代的數據不多,所以數據不足以支撐我們把數據做大。在數據量不大的時候,我們要化繁爲簡。而真正統計學習的基石並不是奧巴姆剃刀,不是說要控制三層,真正統計學習的原理叫VALIANT引理,他這個公式比較複雜,我們就理解成,其實要做到的是模型的複雜度和規則數或者變量數,這樣一個數據量相匹配。

從這個原理我們會知道,爲什麼過去做的模型簡單,爲什麼神經網絡要深度學習,重點的原因就是現在數據量變大了,數據量變大了,模型的複雜度要和數據量成匹配,要相關。所以從VALIANT引理來看,可能全世界最有名的專家原理是牛頓三大定律,爲什麼他提的是三大定律而不是三百三千定律?就是人的記憶是有侷限的,人腦裡面是裝不了大數據的,所以人能產出的就是簡單的模型。爲什麼說過去的算法也很簡單,過去做決策,要減到五千以內,其實很重要的原因是過去的數據鏈有限。我之前做的最大一個數據級是21578,因爲數據量的限制所以當時做不了特別大的模型。但是今天整個時代變了,我們從互聯網上可以獲得大量的數據,傳統企業其實也有大量的數據,比如說華大基因要測百萬人的基因,中石油每天探測回來的地震波有500T,招行每月會有幾億的交易,這些都是非常大的數據。這時候如果還是套用valiant引理的話,數據量大了,模型會複雜。牛頓三大定律交給計算機做會怎麼做?可能不是三大定律,可能是做速度區間劃分,如果說總結出三千萬個定律的時候可能就不需要相對論了,這就是大數據時代,我們怎麼讓機器做到一些不一樣的事情。

從工業界來說,如果我們企業內部做人工智能指導企業經營,最重要的就是我們要去做高VC維模型,我們要不斷的去提高模型的維度,使得training loss和test loss不斷的降低。

前面講的概念會比較偏理論一些,如果我們換一個角度,打個比方,VC維度是什麼東西?大腦的維度大概就是大腦腦細胞的個數,所以爲什麼人比狗聰明,狗比蟑螂聰明,因爲人的腦細胞比狗多,所以可以把VC維度理解爲腦細胞維度,這就可以理解,爲什麼要把機器的維度做高,因爲機器的維度也需要更多的腦細胞,才能更聰明,才能學習更多的知識。這邊是一張圖,這個是IMGENET的比賽,這個比賽大家關心最多的是黑線曲線,這是每年冠軍的錯誤率,會發現隨着每年冠軍的錯誤率誤差都在降低,但是很少有人關心黃色的曲線,黃色這條是每年冠軍模型的VC維,會發現爲什麼會降低?是因爲模型的維度在提升。隨着模型維度的提升,我們的誤差開始降低。

今天爲什麼要做深度學習?深度學習其實是一種更好的去把VC維做高的算法,而爲什麼要做強化學習?強化學習是一個不斷的把VC維做得越來越大的模型。這邊舉例是谷歌的阿爾法狗,如果只做深度學習,他是基於KJS的網站上棋局做的模型,那只有30萬局棋,強化學習以後,通過自己和自己下,不斷地去提升,最後能夠達到8000萬局棋,所以這就是今天強化學習要做的事情,這都是要把維度做大。

現在也有在討論遷移學習,遷移學習要做的是什麼呢?不是所有場景都有大數據的,比如說醫療,有很多並沒有那麼多數據,再比如說這個場景,很多人覺得今日頭條做的是個性化推薦,千人千面,因爲今日頭條是我們的客方,其實他們不是在做個性化,而是做遷移學習,所以我們的視角是在幹什麼事情,今日頭條最強的是在於他能夠拿和你相近的哪些人的數據來幫助到你,比方說你在今日頭條,可能感覺你在今日頭條用得已經很多,但是如果頭條只有你的數據,絕對不可能給你服務得好,服務得好是因爲有了你的數據,可以找到很多跟你相近的數據。所以它是一個遷移學習的問題,因爲每個人提供的數據是有限的,不是一個大數據,真正的幫助是來自於周圍,遷移學習就是說小數據也能做到高緯度。

另外一個例子是領域的遷移,前面是人之間的遷移,領域的遷移是什麼呢?舉例來說,像金融,我們現在關注了金融的資產,可能我做一個業務,資產幾十億上百億,但是如果換一個視角看,上百億的資產做小額信貸,數據量非常非常大。但是如果上百億資產拿來做大額信貸,比如說房貸,每個人貸幾百萬並沒有多大數據,這就帶來大額信貸沒有大數據就很難用現在的深度學習來做。遷移學習恰恰是可以幫助你利用各種各樣的信貸數據,無論是大額信貸還是小額信貸,都能夠幫助你來提升模型的效果,這是我們在銀行做的,我們利用它的小額消費金額的數據,幫助他做汽車貸款,汽車貸款也是幾十萬一筆,沒有大數據怎麼能夠幫助他們在小數據上,用別的領域的數據來提升效果,最後能夠幫助他的營銷提升。

所以遷移學習要解決的是小數據實現超高位。另外一個數據是專家經驗,如果說既沒有數據,又沒有其他領域的知識,我們還可以用專家經驗來降低數據的使用量,提升小數據的模型維度。

我們今天會發現很多的話題在討論人臉識別或者無人車,個性化推薦,有人討論深度學習、強化學習,最關鍵的是所有事情都在解決一個問題就是維度。最後分享我們這個公司其實是一羣人工智能的科學家、工程師創立的,我們過去的背景其實是一直在幫助到企業,去利用人工技能的技術提升企業經營的效率以及業績,這個團隊曾經幫助過像百度、頭條搭建起他們的人工智能系統,在百度也評測過我們的系統能夠幫他們提升8倍的效率,頭條的系統上線,客戶的留存度超過了其他的競爭對手。但是今天出來並不是想幹一件像百度或者頭條這樣的事情,因爲我們想幹另外一件事情,我們作爲一個人工智能領域長期的從業者,從學術到工業界,我們希望把這個力量能夠推廣,能讓這個社會在產業界發揮更大的發揮,所以我們希望幫助更多的企業,把人工智能能力推廣出去,所以今天是在做人工智能服務每家企業的事情。我們也有一些行業的專家,這些是金融領域的專家,雖然說今天人工智能很火,看上去很高大上,我們也會談高大上的話題,但是我們也要腳踏實地,不能光高大上不腳踏實地,所以我們也會注重每個行業的專家,能夠把人工智能先進的技術和行業結合好。我們這個公司最驕傲的地方是機器學習領域的技術領先性,包括我們的架構師,設計過兩萬多臺的機器學習系統,至今仍然是中國最大規模的機器學習系統。還有全球第一個商用深度學習系統的設計和全球最大的深度學習系統。

我們想把這個能力能夠推廣給全社會的每家企業,現在大家會說人工智能難做,機器人難做,或者頂級科學家少,其實頂級科學家並不少,每年畢業的博士生沒有上萬也有幾千,但是爲什麼不能落地?人工智能要在產業落地需要五大條件,首先是要有數據,要有明確的業務定義,也需要懂算法,要懂如何去設計架構,要懂得如何設計產品,這裡面就會發現,人工智能真正在產業落地,不是一個科學的事情,甚至是五項全能的事情,我們要解決的是把前提條件減少,能讓我們解決科學家的問題,解決計算資源的問題,解決外部反饋的問題,能讓一家企業只要有IT專家,普通的業務的專家,就能夠把模型做出來。所以今天我們的定位是讓AI觸手可及,是針對每個人做的事情,而不是做一個只屬於我們自己的動作。今天就分享到這裡,謝謝大家。