中電信數智科技申請基於端到端跨語言大模型語音識別方法專利,提升語音識別準確度及魯棒性

金融界2025年1月8日消息,國家知識產權局信息顯示,中電信數智科技有限公司申請一項名爲“基於端到端的跨語言大模型的語音識別方法、裝置及設備”的專利,公開號 CN 119252228 A,申請日期爲2024年9月。

專利摘要顯示,本申請涉及一種基於端到端的跨語言大模型的語音識別方法、裝置及設備。所述方法包括:構建跨語言大模型;獲取由多組語音文本標籤對構成的訓練數據集,並將訓練數據集輸入跨語言大模型進行端到端訓練,直至得到訓練好的跨語言大模型;將待識別的語音信號輸入訓練好的跨語言模型,依次通過模型中的語音編碼模塊、文本編碼模塊、特徵對齊模塊和解碼模塊進行過濾器特徵與wav2vec2特徵提取與拼接、文本的嵌入特徵表示、維度對齊、拼接以及解碼翻譯,輸出得到目標語言的語音識別文本。採用本方法能夠提升語音識別的準確度以及魯棒性,並實現跨語言的語音識別。

天眼查資料顯示,中電信數智科技有限公司,成立於2001年,位於北京市,是一家以從事電信、廣播電視和衛星傳輸服務爲主的企業。企業註冊資本300000萬人民幣,實繳資本300000萬人民幣。通過天眼查大數據分析,中電信數智科技有限公司共對外投資了16家企業,參與招投標項目5000次,知識產權方面有商標信息28條,專利信息778條,此外企業還擁有行政許可25個。

本文源自:金融界

作者:情報員