卓視智通申請基於大模型的長視頻理解專利,有效減小大語言模型上下文長度對視頻理解的限制

金融界2024年10月31日消息,國家知識產權局信息顯示,北京卓視智通科技有限責任公司申請一項名爲“一種基於大模型的長視頻理解方法、裝置、設備及介質”的專利,公開號CN 118840697 A,申請日期爲2024年9月。

專利摘要顯示,本發明涉及一種基於大模型的長視頻理解方法、裝置、設備及介質,該方法包括:獲取待處理視頻;對所述待處理視頻進行秒級抽幀,得到初步視頻幀序列;根據所述初步視頻幀序列的長度、第一大語言模型的上下文長度和第一設定長度,對所述初步視頻幀序列進行劃分,得到至少一個子序列,通過所述第一大語言模型對各個所述子序列進行分批處理,得到每個所述子序列對應的理解結果;對多個所述理解結果進行融合處理,得到所述待處理視頻對應的目標理解結果。通過本發明的方法,有效減小了大語言模型的上下文長度對視頻理解的限制,大大增加了能夠處理的視頻的時長。

本文源自:金融界

作者:情報員