平安科技申請用於新增說話人的語音合成專利,減少微調過程計算量
金融界2024年12月10日消息,國家知識產權局信息顯示,平安科技(深圳)有限公司申請一項名爲“用於新增說話人的語音合成方法、裝置、設備及存儲介質”的專利,公開號CN 119091850 A,申請日期爲2024年8月。
專利摘要顯示,本申請公開了一種用於新增說話人的語音合成方法、裝置、設備及存儲介質,基於語音合成基礎模型以及低軼矩陣分解理論,通過低秩矩陣分解將語音合成基礎模型中部分參數分解爲低維矩陣,將傳統的梯度更新替換成低維網絡的訓練,極大減少了微調過程計算量和訓練參數,減少對數據量的依賴,可運用於不同語音合成模型,具備良好的泛化能力,解決了現有技術中傳統的語音合成模型通常需要大量的數據來捕捉特定說話人的特徵,當只有少量數據可用時,模型很難學習到足夠的特徵,導致的合成語音的質量和自然度下降;而採用參數選擇性微調,合成語音的自然度和表現力仍然可能受限,小數據量可能導致模型過擬合,無法泛化到未見過的新文本或語境的技術問題。
本文源自:金融界
作者:情報員