《讀懂實時互動》,一次搞懂從網絡電話到AI語音的音視頻進化史

“《讀懂實時互動》由聲網撰寫,深度解析音視頻技術、場景及數據”

近年來,線上K歌、視頻會議、在線教育、遠程醫療等場景紛至沓來,線下的各種生活、學習和工作習慣被顛覆,人們彷彿打開了一個全新的“數字化”空間。不難推測,一旦數字化基礎設施建設完成,萬物都有機會實現“數字化”轉型。其中,實時互動正是一種重要的數字化基礎設施,正不斷滲透進“數字生活”的每個角落。

回到日常,提到“實時互動”,你會想到哪些應用場景?如果你在生活裡看過視頻直播、學習時上過在線網課、工作中用過視頻會議,那你就已經是實時互動的用戶。

那麼,如此重要又常見的“實時互動”是如何實現的?由知名的實時互動雲服務商聲網最新撰寫、機械工業出版社出版的《讀懂實時互動》一書,系統性地介紹了實時互動的誕生,並如何在數百個應用場景中創造價值。

實時互動,常寫爲RTE(Real-Time Engagement)。簡單來說,它是指在遠程條件下溝通、協作的多方,能夠隨時隨地接入、實時傳遞虛實融合的多維信息,並體驗身臨其境的交互活動。實時通信是實時互動最基礎的功能,即將用戶在線下產生的音視頻、文本、圖片等數據進行實時傳輸。

實時互動RTE最早出現在聲網2020年招股書裡。當時,聲網將其使命定位爲“讓實時互動像空氣和水一樣,無處不在”。事實上,只要需要實時傳輸音視頻,就離不開實時互動。短短几年時間,從在線教育到線上娛樂,實時互動正如空氣和水,出現在“線上生態”的角角落落,構成數字生活必不可少的底座。

而伴隨生成式AI的問世,實時互動領域的發展邊界正無限延展。不難預測,實時互動將增加另一重“身份”:成爲AGI時代重要的實時基礎設施。回望人機交互從鍵盤、鼠標、觸摸到音視頻的演變歷程,未來人機交互的方式毫無疑問將向着實時互動的方向繼續深耕。聲網COO劉斌表示,除了使用上的便捷,在AI的交互對話中加入RTE,可以讓交互變得更有溫度。

當AIGC“大殺四方”,變革千行百業,RTE的滲透率也將水漲船高。劉斌判斷,在實時互動的加持下,AI口語老師、AI客服、AI助手等應用場景的實用性將大大增強。聲網《實時互動場景創新生態報告》更是預測,到2025年,實時互動行業將形成超過千億元人民幣級別的市場。

一個新的千億規模的市場正逐漸成形,全新的市場機遇蠢蠢欲動。

然而,作爲新興市場,2015年實時音視頻技術的佈道,在國內還處於“三無”狀態,即:無行業會議、無專業書籍、無專業媒體及社區。

聲網市場副總裁彭小歡介紹,當年,聲網舉辦了首屆音視頻技術大會。今年,音視頻技術大會(現已更名爲RTE大會)連續舉辦到了第10屆,聲網也已成立滿十年。在這個時機,由聲網主持撰寫,首本系統介紹實時互動的技術型科普圖書《讀懂實時互動》正式出版問世,終於填補了RTE行業無專業書籍的空白。

翻開《讀懂實時互動》第一章節,實時互動技術服務的演變史一目瞭然。回望其發展歷程,最早可以追溯至1999年成立的專注於互聯網VoIP及語音信號處理的公司Global IP Sound。

公司的產品GIPS VoiceEngine 曾受到Skype以及QQ超級語音等多款大熱應用的青睞。到了2010年,谷歌收購了該公司。儘管可以獨佔GIPS的技術專利,但谷歌秉持着互聯網開源開放的精神,選擇完全開源GIPS的核心代碼以及免費專利授權,這也成就了後來大家熟知的WebRTC開源項目,並正式拉開了實時互動這個行業的序幕。

WebRTC,即網頁實時通信,推動音視頻通話開始普及。尤其4G普及後,互聯網流量逐步從文字圖片轉向語音、視頻消費,越來越多基於音視頻的實時互動應用涌現。但僅有WebRTC,開發者在研發中仍然面臨着各種技術服務的欠缺。RTC PaaS應運而生。

RTC PaaS化是指將實時通信技術作爲一種服務提供給開發者,開發者只需要調用簡單的API接口,就可以實現實時音視頻互動功能。該服務的出現,極大降低了開發者的門檻和成本,讓更多應用可以享受到實時通信技術帶來的價值。成立於2014年的聲網就是RTC PaaS化的典型代表,並在此基礎上,提出了實時互動RTE的全新概念和願景。

比較來看,RTC的核心是交流,實時互動RTE則在RTC的基礎上,進一步提供了更加豐富和靈活的實時互動能力,讓開發者可以根據不同的場景需求,打造更具個性化、差異化的實時互動體驗。

在《讀懂實時互動》第三章節,聲網研究院對實時音視頻的技術流程,進行了詳細的解析。從音視頻採集、前處理、編解碼、傳輸、再到後處理,全圖景展示了音視頻領域的實時互動是如何實現的。

書中還聯繫了與實時互動技術緊密相關的常見場景,比如社交應用中已成標配的美顏、聲音美化,就是在“前處理”這個部分完成的。

聲網首席科學家兼CTO鐘聲介紹,實時互動在技術層面上要解決的核心問題,是面對複雜的設備和多變的應用場景中,如何在保證數據的高可用、高可靠性的同時,儘可能降低傳輸的延時。這也是聲網深耕的領域之一。通過分佈式的“端邊雲”結合系統,聲網實現了傳輸的低延時,並顯著降低了成本,讓更多人用得起實時互動服務。

任何技術的落地都離不開與實際場景的結合。

在2021年的RTE實時互聯網大會上,聲網發佈了“RTE萬象圖譜”,展示了圍繞教育、泛娛樂、IoT、企業協作、金融、醫療等20多個行業賽道的200多個實時互動場景。《讀懂實時互動》的第四章對這200多個場景逐一介紹,同時選取了31個主流場景,增加了場景示例圖展示,更直觀的展示了實時互動在各行各業的場景賦能。

值得關注的是,除了在線K歌、直播帶貨等相對成熟的應用場景,平行操控等新場景正受到行業關注。

所謂平行操控,即通過現代超低延時視頻通信技術與實時信令技術的結合,使操作者可以實時的駕駛/操作遠端的無人車或機械設備。典型的應用場景包括:物流園區的無人車、礦區的無人駕駛礦車,港口的無人集卡車,以及遠程接管脫困的雲代駕。針對該領域的業務特點,聲網已推出同時滿足低延遲、高畫質、高幀率等不同業務場景偏好的成熟產品。

此外,《讀懂實時互動》還加入了全球範圍內的實時音視頻大數據觀察。

書中第五章節提到,在語聊房這一典型場景下,當頻道中的音頻卡頓率高於8.1%時,99%的用戶是無法接受的。而當用戶在頻道中的音頻卡頓率位於1.2%-8.1%時,音頻卡頓率每降低0.1%,用戶在頻道中停留的時長平均增加18s。而在狼人殺場景下,用戶對音頻卡頓率似乎更加敏感:當音頻卡頓率超過6.9%時,99%的用戶是無法接受的。同時,書中還詳細列舉了各種視頻應用的卡頓率,對用戶時長和留存率的影響。這些大數據均來自聲網十年間服務海量客戶後的深刻洞察和總結,對行業從業者有很高的參考、借鑑價值。

此外,得益於聲網長期在出海市場的深耕,《讀懂實時互動》還列舉了全球熱門地區RTC用量的機型清單。

像是基於2022年2月-4月聲網在全球的RTC數據,聲網總結出在中國大陸地區RTC用量TOP30的機型中,蘋果手機佔比最高,華爲次之,而東南亞地區用量第一名同樣是蘋果手機,第二名則是小米手機。書中針對不同市場提供的不同終端用量情況等數據,將幫助有出海需求的企業和開發者因地制宜的做好出海規劃和業務拓展。

據彭小歡介紹,本書開始撰寫時,生成式AI還未呈爆發之勢,不過當時聲網就已經開始關注AIGC與RTE的結合,並在書中介紹了聲網RTE與AIGC結合的初步探索。如今,多模態的大模型實時交互已經是大勢所趨。

在鐘聲看來,RTE是智能化生態的重要環節。相比較文字的交互方式,實時音視頻的互動更具沉浸感,與AI的互動感也更強。同時,AIGC的出現也從技術上讓實時互動更“身臨其境”,比如通過AIGC的方式,可以更高效地生產各類RTE背景和道具,打造更真實、豐富的虛擬場景。

目前,圍繞“實時互動+AIGC”的方向,聲網正在不斷探索和實踐,並已經推出了對話式AI解決方案。該解決方案以語音爲核心,支持視頻擴展,通過低延時響應、智能打斷、AI降噪、超擬人化人聲合成等豐富的功能,構建真實、自然的AI語音交互體驗,且已經具備落地能力。面向已經洶涌而來的AIGC變革浪潮,聲網也將在線上營銷、在線教育、泛娛樂、IoT設備等領域重點佈局,迎接實時互動在新時代的新機遇。

《讀懂實時互動》中也提到,聲網在RTC領域積累的優勢在AIGC浪潮中將發揮重要作用。鐘聲表示,當下大模型廠商都在發力AI實時語音交互,聲網作爲RTC領域的佼佼者,大模型語音交互延時最低能做到600毫秒左右。

與此同時,相比較市場上大部分3-4秒的AI互動延遲時間,聲網的解決方案可以將對話響應延時控制在1秒內。而針對缺乏AIGC開發經驗和能力儲備的企業客戶,聲網可以提供封裝完整的SDK,最快3小時即可實現方案快速驗證。

AIGC與RTE交織,正帶來人機交互的更多可能。隨着交互模式從文字升級爲音頻、視頻的多模態,實時互動的邊界和未來不可限量。

聲網COO劉斌表示,AIGC的應用場景鋪展開,必然要用到實時音視頻傳輸。通過在大模型交互對話中加入實時音視頻能力,AI交互會更加有溫度,更具真實感、沉浸感,用戶也會更有參與感。

他舉例,線上的口語老師在教學中就離不開實時音視頻的能力。除了人與人之間,人與機器人之間也會產生實時互動的需求。屆時,機器人將通過語音以及形象,與人類實時互動,爲社交玩法創造更多想象空間。

談到《讀懂實時互動》的創作,彭小歡介紹,聲網在其2021年發佈的“RTE萬象圖譜”,以及2022年發佈的全球區域RTE場景熱力榜單的基礎上,更新相關數據,並將RTE場景展開敘述,同時加入實時互動的技術棧和歷史棧,於是順理成章的誕生了這本《讀懂實時互動》。

圖書的配套資源也包含了電子版RTE萬象圖譜

藉由本書,聲網希望讓更多人瞭解實時互動的來龍去脈以及其在生活中的應用有多麼豐富多變。彭小歡表示,只有更加了解實時互動,用戶才能更好地挑選和使用適合的實時音視頻服務;同時越多的人瞭解和加入到行業中來,也才能最大化的激發實時互動的創造力。

目前《讀懂實時互動》已在京東、噹噹等電商平臺上架。