AI英雄 | 對話微軟黃學東:語音交互的技術前景到底如何?
本文系《AI英雄》欄目出品,每週圍繞人工智能領域講述一個人物故事,洞察技術趨勢,捕捉行業機會,關注人的價值。欄目隸屬本站智能工作室(公衆號:smartman163),每週四更新。
本期講述人物爲IEEE/ACM雙科院士、微軟公司語音識別領域的領軍人物黃學東博士,他如何看待語音交互技術的發展?又如何詮釋微軟在人工智能時代的技術路線?聽聽他怎麼說!
作者 | 小羿
在微軟衆多的技術大咖中,黃學東是最有激情的一位。
有人說,他在用技術改變世界。
作爲IEEE/ACM雙科院士、語音識別領域的技術大咖,2016年他被美國《連線》雜誌評選爲全球創造未來商業的25位大牛天才之一。今年2月,黃學東當選微軟全球技術院士,這代表着微軟技術人員的最高榮譽,也進一步奠定了他在微軟的技術領袖地位。
作爲語音領域的權威專家,黃學東深信“對話即平臺”,“語音交互的發展是一個自然的過程,這是因爲語音交互是一個無需觸碰設備即可完成的體驗,它可以讓人擺脫設備的枷鎖。”黃學東說到。
黃學東同時表示,高計算量、噪音問題、理解力三個問題,限制了語音交互在實際應用場景中的效果。雖然如此,但是語音交互畢竟已經可以落地併產生了商業化應用,“機器聽懂人話”這個目標已經基本實現。
加入微軟24年,黃學東目前領導着微軟在美國、中國、德國、埃及、以色列的團隊研發,包含語音識別及合成,微軟企業人工智能客服對話解決方案、cris.ai以及luis.ai等認知服務、CNTK開源深度學習工具等人工智能產品和技術。
在黃學東看來,語義理解是語音交互中最難攻克的問題之一。他指出,這是因爲語音理解方面的標記非常少,而且也沒有公認的標準,所以要通過非監督式學習來攻克這個困難,但是非監督式學習目前還在探索階段,亟待突破。這也導致了機器無法學習知識,也沒有理解能力,陷入了“雞和蛋”的問題中。
“認知方面的突破,現在還不知道猴年馬月。”黃學東坦言。
對人工智能今年落地發展,黃學東稱非常期待能夠看到在金融、醫療、保險、招聘等領域的垂直深度應用。
而微軟在人工智能的佈局上,用黃學東的話來說,我們的人工智能是爲了幫助人們做到更好,而不是與人競爭。在技術上,微軟有與谷歌TensorFlow想匹敵的人工智能開源開發工具CNTK,以及提供全部人工智能技術的Azure雲。在業務上,微軟現在有三款聊天機器人,主打情感計算的小冰、主打商務助理的小娜,還有在垂直領域的深度應用智能客服。另外,在神經網絡翻譯領域,黃學東稱Microsoft Translator已經超過Google Translate。
對於亞馬遜Echo的火熱,黃學東稱微軟有更大的戰略。“我們把微軟過去幾十年做的人工智能方面的研發集成到Azure雲上去,Azure雲支持IoT、Bot Framework,第三方如果想要用微軟的人工智能技術,已經可以通過Bot Framework、Azure IoT等來做。”
根據黃學東的解釋,Azure雲可以實現更多的事情,像語音識別、語言理解、機器翻譯、語音合成,遠遠超出亞馬遜Alex。
可以說,Azure雲承載了微軟佈局人工智能的最大野心。不過,業內很多人並不知道微軟提供瞭如此強大的功能。
“微軟在人工智能時代一定能夠王者歸來。”黃學東自信地表示。
以下根據黃學東問答實錄整理,本站智能(公衆號Smartman163)做了不改動原意的刪減:
機器能聽懂人話,但價格、噪音、理解力限制了實際效果
本站智能:您是語音識別方面的頂尖研究者,由於人工智能的應用,語音識別的準確度不斷提高,但是我看到在一些實際的應用場景中,比如說客服,我們在打電話的時候,還是會有受到環境的一些影響,實際的效果並沒有那麼好。所以我想請教您,語音識別往下發展的時候,如何克服環境噪音,在具體的會話語境中提升準確率?
黃學東:人工智能領域基本包括了兩大塊,一塊是感知,包括語音識別、圖像識別等;另外一塊是認知,包括自然語言理解、推理、知識表達等。人工智能在過去幾年來看,因爲深度學習的進步,在感知這個領域突飛猛進是非常令人振奮的,首先是微軟研究院兩年前第一次在圖像有重大突破,基本上改寫了我們對計算機視覺能做事情的認知。
去年,微軟在語音識別再一次突破,達到人的水平,這個實際上是會話語音。電話會話語音其實有很傳統的公開的數據,這是美國政府在90年代中期就開始進行這樣的研究,當時錯誤率高達80%以上,通過20多年的努力,因爲深度學習的進步,微軟是第一次在這個數據集上,達到和人一樣的水平,甚至超過人的水平,所以這是非常了不起,振奮人心的歷史性的進步。
但是這個是在電話,不是遠場的情況下做的。在實際應用中有幾點問題,第一個是計算成本,微軟達到這個水平的時候,計算量要求比較高,要求十個神經網絡同時在工作。但是通常我們上線的產品,只有一個(神經網絡)在工作,所以我們現在正在使用的技術並不是微軟能達到人的水準的技術,因爲計算需求太高。不過往前看,隨着計算會越來越快,越來越先進,這個問題早晚會解決。第二,在噪音比較大的環境下,人比較魯棒,計算機還沒有達到人的魯棒性水平,因爲這個系統基本上還是在打電話。第三,是人的理解還是非常強大的,錯兩個字沒關係,意思能懂。計算機儘管在識別方面,每個字超過了人的水平,但是領會意思還差得很遠,這就是人工智能認知水平和人的水平的差別。這不是五年、十年的差別,短期內很難解決。這也是人工智能語音識別方面,很大的一個現狀,理解還有距離,遠場和噪音環境還有距離。
儘管有這幾點問題,但是我們的進步也很大,所以它離實用化基本上已經不是問題了,所以今年年初,《經濟學人》、《封面》雜誌等都在講機器終於能聽懂人的講話了。20多年前,我們當時的口號是讓語音識別走向主流,到今天機器可以聽懂人講話,可以說我們這個目標已經實現了。
本站智能:您的意思是在具體應用上還有一些困難,但是基本上技術已經達到了這個水平?
黃學東:具體應用主要是理解的問題,因爲不同的場景需要有很多相關知識,從知識應用到理解,這是最大的距離。而用語音識別出每個字不是主要的挑戰,但是要做到在噪音或遠場的環境下識別,這個挑戰還是蠻大的。語音、手勢、計算機視覺有非常強大的功能,你看過去幾十年計算的進步,從大型計算機到PC,再到手機,人一定要去觸碰到這個設備,才能達到計算的目的。語音和計算機視覺,也就是麥克風和相機,兩者合起來就可以讓人解放到不需要觸碰設備,這是一個很大的飛躍。你看亞馬遜的Echo現在做的那麼火,就是因爲你可以隨時隨地交互,甚至是遠場控制,獲得你想要的信息。
今後如果計算機視覺和聽覺合起來,通過手勢演進和雲的交互,這些相結合,你可以不讓人受到設備的枷鎖,砍掉這個枷鎖,計算的進步是下一次新的飛躍。而且這個飛躍,背後我們有人工智能的強力支持,所以計算的未來會越來越美好。
本站智能:還有一個問題,之前本站智能採訪洪小文博士,他提到一個“雞尾酒會效應”,就是人在和一羣人聊天的時候,我想聽到某一個人說的話,我就能自動過濾到其他人。如果讓語音識別技術去解決的話,您覺得是理解的問題還是噪音的問題?
黃學東:這是一個麥克風陣列的問題,麥克風陣列如果能做的很好,可以識別到某一個方向,除非兩個人在同一個位置講話,你也可以通過blind source這樣的核心技術來分解,這個問題我覺得是都可以解的。
語義理解要靠非監督式學習,知識和理解是最難的“雞和蛋”的問題
本站智能:剛纔您說到理解是最大的挑戰,目前在自然語言處理和認知這塊,您覺得最大的困難是什麼,能不能結合現在微軟的一些研究,提出一些建議?
黃學東:機器學習是人工智能過去幾年進步最大的動力,尤其是深度學習,但深度學習要求的數據量也很高,而且需要最好是有標記的數據。我們講的監督式學習,不管是機器翻譯、語音識別,還是圖像識別,因爲有很好的標記,所以這個問題是很好定義的,比較容易實現。而語義理解這方面標記的數據非常少,目前這個標記本身也沒有一個公認的標準,所以要通過非監督式學習,來理解這個語言,目前非監督式學習還在探索階段,這是最主要的問題之一。
第二個問題,人在理解文本的時候需要知識,你沒有知識,看了一個東西還是似懂非懂。然後,人獲取知識,是需要有理解的能力,這兩者就是一個雞和蛋的問題,錯綜複雜。現在機器沒有知識,所以它對理解語言有障礙,然後又因爲沒有閱讀的能力,所以不能獲取知識。
第三個問題,現在深度學習,連續的信號比較強大。語言這個東西,每個字是一個人造的形態,要對字準確處理,除非機器翻譯這樣相對定義得比較好的東西,給映射到到連續空間去。對理解首先它是沒有非常定義好的標準,第二理解需要知識,知識需要理解,它是互相依賴的。因爲那麼複雜的關係,所以認知方面的突破,現在還不知道猴年馬月。
這方面沒有突破口,而且我也不知道什麼時候有突破口。
本站智能:現在我看很多人在做知識圖譜這個方面,是希望把這個,通過知識圖譜的形式,去推動語音語意理解這個方面的研究。
黃學東:這個在20世紀70年代就很多人做,在人工智能的第一個冬天之前,大家都做知識圖譜,但是沒有結果,這是一個非常難的問題。
微軟有三個聊天機器人:除了小冰、小娜,還有不爲人知的智能客服
本站智能:另外一個,情感計算,現在大家也都在說這個情感計算,小冰也在做情感計算,也算是第一個做EQ這種方面的東西,這個方面也需要理解你們是怎麼做的?
黃學東:微軟在這個方面做了很多開創性的工作。這個情感,我覺得是比認知更高的一個形式,當然你可以說是感知、認知到情感計算,從人的交流的角度講,這也是最高階的階段,所以這個挑戰非常大,情感計算要做的好,一定要有認知的能力。你沒有認知的能力,那怎麼能情感的溝通呢。所以我們現在可以說,人工智能在感知是有很大的突破,達到人的水平不是問題。認知有很大的挑戰,我也不知道什麼時候能突破。那個情感挑戰更大。但是更大的問題是我們要不要去做,因爲難,我們纔要去做。
情感計算最好的代表是我們的小冰,從語音識別到圖像識別,微軟都達到人的水平。我覺得從知識圖譜到Bing搜索,實際上是一個認知的很好的代表。還有我們在微軟客服方面,現在也有一個聊天機器人。現在微軟有三個聊天機器人,一個是小冰,這個是情感計算的代表;一個是小娜,這個是通用的商務應用的代表;另外一個是智能客服,這個是特定性的對商務客服提供了深度且強有力的會話知識,這是一個商務AI的最好代表,這三個都是微軟在人工智能方面的一些探索。
智能客服對知識的深度要求很高,它是很垂直的。所以我們在垂直領域,也用了深度學習、增強學習的方法,來製造客服聊天機器人。
Azure雲集成了所有的AI能力,不會侷限在單一的助手上
本站智能:您剛纔提到了Alexa,亞馬遜將這個語音助手開放給第三方使用,在今年的CES上十分火熱。其實小冰完全有這樣一個能力,集成在第三方的服務、應用、硬件產品上,爲什麼小冰和小娜沒有這樣做?
黃學東:我們是在用另一種方式做這件事情。事實上,我們把微軟過去幾十年做的人工智能方面的研發集成到Azure雲上去,Azure雲支持IoT、Bot Framework,第三方如果想要用微軟的人工智能技術,已經可以通過Bot Framework、Azure IoT等來做。現在大家並不一定知道微軟提供了這麼強大的功能,我們並不是限制在一定要做小娜這件事情上,Azure雲可以實現更多的事情,像語音識別、語言理解、機器翻譯、語音合成,這些都在Azure這個雲上可以實現。
Alexa確實做得不錯,它的Speaker和遠場做得非常好,但是它的侷限性是隻有語音式的對話。小冰和小娜在Windows上面已經有Alexa所有的功能,比如我現在把我的PC打開,我可以說“Hi,Cortana”。微軟基於PC爲中心,已經服務了很多用戶。小娜是一個助手,它跟Office的整合,可以隨叫隨到;它和Bing整合也非常緊密,有很多問題通過Bing搜索就能得到回答。我認爲把小娜在PC的前端, 未來PC可能也會Always on(實時在線),也能通過“Hi, Cortana”來喚醒。
現在PC上做,使用場景和使用率都不能算主流,主要有幾個問題,一個是PC的麥克風陣列不是主流,所以它對遠場的功能比較弱;二是PC不能通過“Hi,Cortana”來喚醒,你要用還得先打開。不過這些事情都是可以解決的,我對PC爲中心的小娜還是非常看好的。
本站智能:現在中國很多人工智能企業開始做集成語音芯片,智能音箱通過集成Speach、麥克風陣列的芯片,達到進入智能家居的目的,您怎麼看,這是未來的一個趨勢嗎?
黃學東:我覺得集成麥克風陣列的功能到芯片, 對於語音的入口是非常有意義的。但是強大的語音識別,還是要通過雲才能達到,如果是某一個特定小環境的聲控,這個不是問題。所以具體要看應用場景是什麼,今後終端和雲的緊密的配合,一定是大方向。
微軟PK谷歌:CNTK PK TensorFlow,Microsoft Translator PK Google Translate
本站智能:您之前在很多場合提過,現在微軟的人工智能架構,包括雲、應用、服務等,都用到了您開發多年的工具CNTK,想請教您,CNTK這個開源工具在微軟的AI產品裡是怎樣一個角色?
黃學東:CNTK是起了一個非常重要的幕後英雄的角色。微軟不管是語音識別,還是計算機視覺,還是智能客服,深度學習的工具都是基於CNTK的,微軟內部有一個很大規模的集羣的GPU學習平臺,超過80%以上的內部大規模的深度學習都是基於CNTK去做的。
CNTK是微軟內部的一個深度學習工具,TensorFlow是谷歌內部一個深度學習工具,兩者最大區別就是CNTK的分佈式計算速度比TensorFlow在典型的work load(工作負載)的下面要快三到四倍左右。CNTK完全開源,雖然受歡迎程度不及谷歌的TensorFlow,但CNTK有自己的特點和優勢。
CNTK完全開源,其實中國有一些公司已經在用。其中有一家創業公司叫做Airdoc,他們把眼底照下來,基於CNTK提供的工具進行技術分析,可以預測糖尿病,這個方案已經落地應用了。
本站智能:谷歌和微軟近期都升級了各自的神經網絡翻譯,本站新聞也在跟國外一些外國媒體去合作嘗試做新聞機器翻譯,但是我們看到有些問題,比如必須針對不同的領域做不同的優化,比如說財經股票、科技、體育,這些不同的類別需要分別優化。我想問的問題是,您認爲跨領域的機器翻譯該如何突破?
黃學東:人工智能需要大量數據,如果你的數據是來自某一個領域,它在這個領域的表現會比較好。微軟早就意識到這個問題,如果是一個新的領域,你可以把自己的數據拿上來,我們可以爲你量身定製一個語音識別系統,定製版會比通用的系統好很多。微軟目前有這樣一個服務,叫做cris.ai,屬於Azure雲上的一部分。cris.ai雖然沒有在中國落地,但在北美已經是公開服務。機器翻譯和這個問題的解決方式是一樣的。另外我的團隊還做了一個叫做luis.ai的方案。
像微軟的機器翻譯,優點是對企業級的應用做得非常好,Microsoft Translator在中英文已經超越Google Translate。微軟是有很多先進技術的,只是我們沒有把那個故事講透。目前,微軟和谷歌的神經機器翻譯都取得了很大的進步,但是大家都知道谷歌,其實微軟在中文英文翻譯的方面已經超越谷歌,而且Microsoft Translator支持60種語言。
微軟在人工智能大潮流下一定會“王者歸來”
本站智能:之前在PC的時候我們用鍵盤鼠標交互,在移動互聯網的時候用手機觸摸交互,在人工智能的時候可能是會話交互,也就是說未來對話式交互會成爲主流。如果我們想用對話式的交互替代掉手機觸摸成爲主流,我們現在還有哪些問題,您覺得多少年以後會實現?
黃學東:可以說微軟在PC時代是領軍人物,而移動計算時代安卓、iOS起到了領導作用,下一個風口一定是人工智能,微軟在人工智能的積累超過了30年,我覺得微軟在人工智能這個新的大潮流下一定會王者歸來。因爲對話就是平臺,微軟已經在領導這個潮流,Bot Framework是領先其他大公司的。我們的小冰、小娜和智能客服都是領軍角色,這都是基於微軟在人工智能裡面深厚的積累。
像智能客服這樣的大規模的商業應用,馬上就可以起來了,微軟已經開始做智能客服。微軟有Windows,有Office,有Azure,這些都是技術程度非常深刻的一些產品線,產品複雜度和多樣性遠遠超於大部分其他公司。毫不誇張地講,微軟的智能產品客服是最有挑戰性的。但是,微軟的人工智能是爲了幫助人們做到更好,而不是與人競爭。
從深度來講,微軟智能客服已經能幫助我們的客戶解決很多的問題,它可以通過幾輪對話瞭解你到底想問什麼東西,然後提供具體的解決方案,這是智能對話的標杆性應用。它在微軟北美網站上已上線服務,已經可以回答微軟產品有關任何問題,這個沒有垂直的整合是很難做到的。微軟智能客服絕對是這個領域的領導者。從廣度來講,小冰的應用在情感聯繫方面迎合了很多年輕人,小娜已經整合到Windows10當中。不管是從深度還是廣度上來講,微軟都有可以立足的產品。
中美都有很好的AI生態環境,沒人能正確預測未來
本站智能:您如何看待中美之間的技術的差異?
黃學東:像微軟這樣的跨國公司,我們在中國和美國的技術完全是同步的,從微軟這個公司來看,中美完全在同一個起跑線,但是中國其他公司做的產品是什麼樣,我本人也不瞭解,不好妄議。
我覺得中國人才濟濟,而且數據量很大,這一點是對人工智能生態系統非常好的一個環境。因爲人工智能要發展,第一要有數據,第二要有計算,第三要有算法,在中國這樣的生態環境裡面,人才、數據、計算都存在,所以這個對AI健康發展是很有意義。
本站智能:大家經常談人工智能第三次浪潮,您覺得這波浪潮如何才能落地,未來還會不會冷卻?
黃學東:感知方面的突破已經讓很多應用可以落地,像小娜的應用;語音控制、圖形識別上也有很多實際的應用。認知方面,我覺得微軟智能客服是一個很好的例子,這個是大規模商業應用,有非常大的經濟效應。但是目前它只是在某一個特定領域,要跨領域的認知服務,我覺得我真說不準什麼時候有大的突破。而跨領域、跨平臺的認知服務,最好的案例,應該是搜索引擎,你不管搜什麼東西,都能拿出答案,但是他沒有真正理解這個問題。跨平臺的強人工智能任務艱鉅,大家不要太急躁,這個是一個慢工細活。
這波浪潮會不會冷卻,要看我們是怎麼對待人工智能的突破?我覺得感知這方面是非常實實在在的,它已經達到人的水平,這本身意義就非常大。認知方面,在某一個特定領域,或者是在很寬的領域,是比較膚淺的理解,它已經給千千萬萬的用戶,帶來很多實際的效應。而深度上,比如微軟智能客服可以給商業應用帶來實實在在的利益。
沒有人能正確的預測未來,我們只要踏踏實實做好人工智能應用,這就足夠激動人心了。
本站智能:您對今年人工智能市場有什麼期待?
黃學東:我覺得像微軟人工智能客服這樣的案例,在下一個很深的領域,像金融、醫療、保險、招聘等領域的應用是完全有可能的。其實IBM的Watson也在做同樣的事情,他們也是在垂直領域做比較深,但是不是很廣。
注:本文爲本站智能頻道稿件,轉載請聯繫我們獲得授權(微信公衆號smartman163),違者必究。
7、專訪聯想芮勇:以前大家把搞AI的當騙子 現在我希望AI是隻"慢牛"
8、專訪第四範式戴文淵:AI的Windows時代何時到來?
9、英特爾宋繼強:如果機器人取代了你的工作,要學會靈活轉型並與AI共處
10、專訪圖森未來侯曉迪:那些不能盈利卻說要改變世界的人,不是騙自己就是在騙別人
11、專訪Gowild邱楠:討厭硬件免費,所有的付出都應該被尊重,今年低成本機器人會上量
12、專訪碼隆科技黃鼎隆:人工智能已裝酷60多年 現在的核心是賺錢