張晴晴:智能系統的增益主要來自於數據部分

版權聲明:本文版權爲本站汽車所有,轉載請註明出處。

本站汽車6月21日報道

中國作爲全球最大的汽車市場,正在面臨百年未遇之大變革。在“十四五”開局之年的背景下,汽車產業如何開好局、起好步?車企應該如何發揮技術引領和創新協同?站在新五年起點上,第11屆中國汽車論壇以“新起點 新戰略 新格局——推動汽車產業高質量發展”爲主題,全面集聚政府主管領導、全球汽車企業領袖、汽車行業精英,共商汽車強國大計,落實國家提出的“碳達峰、碳中和”戰略目標要求,助力構建“雙循環”新發展格局。

在主題論壇“智能座艙創新技術論壇”上,愛數智慧創始人兼CEO、中科院聲學所研究員 張晴晴發表了主題演講。

她表示,智能座艙已經發展了很多年,最早時候主要是對硬件、打開空調或者車窗調低調高的命令控制的運用,現在希望人和機器有更多類型的交互。而在座艙語音交互裡,能夠用到語音的點非常多,這就要求系統能夠“聽得清”、“聽得懂”、“說得好”。

“相較於算法來說,數據的影響力纔是根本的地方,我們有對比分析過,基本上不同的算法,但是用的是同一個數據,你的算法差異度不會很大。但如果你是同一個算法,數據的清洗和選擇不一樣,結果是截然不同的。所以系統的增益主要來自於數據部分。”

張晴晴坦言,數據並不是大家所想的那樣,從人發聲的時刻收集到語音後,可以把語音送到智能化系統裡去了。其實不然,過程中需要經過數據結構化清洗的過程,“數據有點像原油,原油被真正加到汽油裡的過程需要經過很多工序,最後才能得到真正可以用的型號。”

數據也是一樣的,從最開始左側的原始音頻走到右側送到系統裡迭代的數據會經過很多專業步驟,每一個步驟的處理好壞與否都會影響到最後模型的性能。對數據來講,結構化的“質”決定了智能系統的性能。除了“質”以外,很重要的點是“量”。

以下爲嘉賓演講實錄:

各位好!

我是來自北京愛數智慧科技有限公司的創始人CEO張晴晴,今天之前大家講的報告更多都是圍繞算法智能化,包括產品在車行業的應用。我也聽到這段時間有很多車客戶和企業都在提到數據。今天講的報告是圍繞數據,講對話式AI數據推動智能座艙語音交互。

第一,公司簡介

第二,智能座艙發展。

第三,智能座艙數據解決方案。

一、公司簡介。

愛數智慧爲行業希望做智能化轉型的車企提供相應底層數據解決方案。圍繞人機交互的場景,圍繞場景裡的核心三個點:語音識別、語音合成、自然語言理解,這三部分所需要的數據都有相應的提供和解決方案。

核心服務有相應標準訓練數據產品,以及針對車廠在智能化轉型過程中圍繞智能座艙、智能客服、短視頻營銷等其他方面做的方案諮詢,同時會圍繞相應落地場景體迥數據定製採集和標籤化服務。最後爲車廠提供可以進行私有化部署的數據處理系統。

公司成立到現在五年的時間,已經爲頭部車企、車行業提供解決方案的算法公司、造車新勢力提供相應數據解決方案。這是我們公司的核心人員,我自己在人機交互領域有17年的相應經驗,曾經是中科院聲學所博士,法國國家實驗室博士後,也在語音、語言、對話式AI裡參與到很多車企解決方案的落地當中。

二、智能座艙發展。

智能座艙已經發展了很多年,最早時候主要是對硬件、打開空調或者車窗調低調高的命令控制的運用,現在希望人和機器有更多類型的交互,包括對話式自然的溝通,比如說調高溫度的時候,可以說我感覺很熱、很冷等自然式對話式的交互。

除了語音交互外,現在也開始進入到多模態狀態,包括視覺、圖像等都可以圍繞多維度對用戶行爲進行分析,是智能座艙很重要的發展方向。其中,語音的交互方式本身是信息的主要載體,是座艙裡非常重要的落地點。同時由於在開車行進過程中,最早的方式還是用語音交互的方式保證安全。

在座艙語音交互裡,能夠用到語音的點是非常多的。一些比較常見的導航、電臺、內容搜索都會用到語音,包括對車裡硬件設備進行交互可以用到語音。如果出現異常狀況,比如需要緊急呼救求助的狀況也需要涉及到語音的需求。

有三個主要會用到的核心算法:語音識別、語音合成、自然語言理解。

簡單來講,語音識別就是我們說一句話,比如說“幫我調低溫度”,機器需要識別我說這句話的聲音,把它轉換成文字,對機器來講要聽得清我在說什麼,“聽得清”。

聽清了之後會對已經識別出來的文字理解意圖是什麼,意圖是調節溫度的情況。這種情況需要把意圖識別理解出來,“聽得懂”。

下一個環節,機器需要給我相應的回饋,用語音合成播報音的方式告訴我機器已經完成了相應的動作,“說得好”。

這三個點都在應用,同時也有明顯的痛點和問題。比如站在語音識別角度,最大的點是人在說話的時候是有口音的,很多人說我說普通話不是很標準,甚至有的人普通話都說的不是很好,有方言說話。

這種情況下機器不一定能聽得清在說什麼,所以識別率會很差,口音是很重要的點。同時因爲座艙裡的噪音會帶來識別率進一步下降。

在語音合成裡,希望機器播報出來的聲音是很自然的,甚至可以千人千面由我來挑選的。但目前我們所看到的情況是機器的合成聲音很機械不自然,不像人在說話,代入感不好。

自然語言理解是最大的難點,如何理解人在表述同一個意圖的時候用句的方式千差萬別。像我想調節溫度的時候,有可能我根本沒在說調節溫度,我在說我感覺我很熱,這是對意圖很重要的理解點。

對異常表達的理解是座艙過程中對語料擴充要儘可能豐富,通常來說這部分做的不夠好,也可能會導致機器完全無法理解。

目前這三部分在落地的時候都會有痛點,通常來講大家本能的第一反應是解決方案沒有做好是算法不夠好。而事實上過程中會發現人工智能智能化的過程核心是三個基礎部分構成,由算力、算法、數據構成。

在其中,相較於算法來說,數據的影響力纔是根本的地方,我們有對比分析過,基本上不同的算法,但是用的是同一個數據,你的算法差異度不會很大。但如果你是同一個算法,數據的清洗和選擇不一樣,結果是截然不同的。所以系統的增益主要來自於數據部分。

數據並不是大家所想的那樣,從人發聲的時刻收集到語音後,可以把語音送到智能化系統裡去了。其實不然,過程中需要經過數據結構化清洗的過程,數據有點像原油,原油被真正加到汽油裡的過程需要經過很多工序,最後才能得到真正可以用的型號。數據也是一樣的,從最開始左側的原始音頻走到右側送到系統裡迭代的數據會經過很多專業步驟,每一個步驟的處理好壞與否都會影響到最後模型的性能。對數據來講,結構化的“質”決定了智能系統的性能。除了“質”以外,很重要的點是“量”。

藍圖的這條線是大家在智能化過程中主要用到的深度學習的算法,而紅色的這條線是過去比較傳統的淺層學習的方法。大家看藍色的這條線會發現兩個點,首先看到趨勢,橫座標是送到模型裡的訓練數據量,縱座標是識別的性能,送進去的數據量越多,識別的性能越好。

在過程中,最上面的點是目前屬於互聯網的頭部公司每年在AI上所投入的結構化數據量。而下面的點是行業客戶目前所投入的量級。

基本上會看到量級的差異比較大,像互聯網型公司,每年增量在結構化數據上投入的小時數在10萬小時量級的增量數據量。所以,做人機交互的互聯網型公司的識別性能會更好。數據量對模型性能影響也是非常關鍵的。“質”和“量”都是需要考慮的點。

大家會想到數據只要往裡加就可以得到更好的性能,是不是要投入很多成本纔有可能獲得相應的收益?其實並不見得大家要投入這麼多才能獲得相應的收益,在數據行業裡提出了“數據配比二八原則”,在車企車的行業裡,80%的數據是共性數據,這些數據可以由標準化的數據集構成爲大家搭建,而這部分數據可以理解爲完全的一次性投入,一次性投入之後可以用在很多功能點上的迭代優化裡。真正需要定製的數據只在總量裡佔有20%就夠了。真正投入的總量從時間富力來看,投入成本並不高,獲得的收益也是不錯的。

給大家一個比較形象的數據來呈現,左邊這張圖體現的是車的座艙裡有4個場景和功能點,每個功能點爲了迭代模型的性能,現在不遵循二八原則完全來定製的話,現在有的車企也還在用這樣的方法,相對來說比較安全。但用這樣的方式會導致每個功能點都要投入1000小時,總量投入了4000小時的成本,但單一看每個功能點只享有1000小時的訓練數據量,量是有限的。

反觀右邊的這張圖,一個是導航,一個是音樂控制,一個是硬件控制,都可以。但這會伴隨對話式,會涉及有帶口音的,有方言的,這些數據作爲底層數據可以共享,如果拿出80%的數據進行共享(1600小時),在每個功能點上僅投入400小時定製數據量的時候,最後會發現總投入成本只有3200小時。但是在每一個功能點所享有的訓練數據量卻是2000小時。投入的ROI會比左邊的純定製高很多。

使用標準數據集在於立木等於可取,數據的合規性、安全性會得到更好的保障,整體幫助車企更快速地進行智能化迭代優化過程起到很好的推波助瀾作用。

三、智能出行數據解決方案。

目前愛數智慧擁有全球第一大對話式訓練數據集,手上一共有15萬小時全部標籤化好的數據。什麼叫標籤化好的?數據都是進行多維度標籤,除了有語音對應的文字外,還會有性別、年齡區間、口音地域等多維度標籤幫助大家從更多維度對模型進行優化。會含有對話式、命令控制朗讀式的數據。

特別把語種分別情況列出來,在中國境內有很多方言數據,現在車企在落地過程中方言是很頭痛的問題,大家可以考慮使用標準數據集,幫助大家快速進行初始迭代過程。特別提到中英文混合的數據,這種數據在車的座艙裡非常容易出現,經常做電臺、音樂交互時會涉及到中英混合的現場,比如說FM199.2,像“FM”就是英文部分。這種現象在很多物聯網範疇裡都會出現,很好的解決方案是通過標準訓練數據集幫大家快速補齊能力。

車企有在出海,“一帶一路”、歐盟等地區都有。特別呈現外語的數據基礎能力,比較熱點的大語種都有覆蓋。針對目前在車行業裡涉及到的幾個主要場景給大家做的訓練數據產品推薦,有詳細地列出來包括應用和涉及到的技術,包括會有哪些關鍵的問題,比如說有方言識別、口音識別、數字識別、喚醒詞等等,對應的數據推薦。有詳細的產品列表,大家感興趣隨後可以到展臺上進行交流。

智能客服和營銷是車行業比較關注的,現在有的車企跟我們問詢除了線上營銷外,還涉及到店面線下營銷的需求,在這部分給大家分類做了相應數據產品推薦。在線上主要是用到電話信道數據,在線下是通過面對面對話數據幫大家進行定製優化。

(3)會議場景部分也會有車企應用感興趣。核心是對話數據的解決,所以有做相應的推薦。

對數據服務企業來講,數據安全和合規性是立命之本。在這方面不斷投入,愛數智慧是國內第一批拿到ISO27701認證的數據服務商,27701是全球最新的個人隱私認證,一直跟隨國外的GDPR以及國內的數據安全法,在數據處理上遵循國際國內的最高標準。

各位都有自己的私域數據,從安全角度來講數據最好能握在各位手上,最好不要離開自己的服務器。針對這種場景提供相應數據處理系統的私有化部署能力,展現了三個數據處理平臺:

(1)語音標註審覈平臺。主要針對交互、電臺等聲音處理,可以提供私有化部署及相應服務。

(2)文本標註審覈平臺。主要涉及到句式的擴充,這部分會做意圖標籤化,用文本來解決。

(3)音頻/視頻多模態標註審覈平臺。今年開發了新的多模態標註審覈平臺,可以在平臺上同步處理音頻及對應視頻,做很多高維內容選擇,目前處理的最高維度接近1000倍維度的數據。

將部分數據,特別是車行業裡把車的噪聲數據及車內語音交互式數據放到了今年發佈的數據開源社區MagicHub.io,大家感興趣可以到開源社區裡進行相應數據下載和試用,如果有更多感興趣的歡迎諮詢我們。

今天我的報告就到這裡,謝謝大家!