☰

卓視智通申請基於大模型的長視頻理解專利，有效減小大語言模型上下文長度對視頻理解的限制

金融界2024年10月31日消息，國家知識產權局信息顯示，北京卓視智通科技有限責任公司申請一項名爲“一種基於大模型的長視頻理解方法、裝置、設備及介質”的專利，公開號CN 118840697 A，申請日期爲2024年9月。

專利摘要顯示，本發明涉及一種基於大模型的長視頻理解方法、裝置、設備及介質，該方法包括：獲取待處理視頻；對所述待處理視頻進行秒級抽幀，得到初步視頻幀序列；根據所述初步視頻幀序列的長度、第一大語言模型的上下文長度和第一設定長度，對所述初步視頻幀序列進行劃分，得到至少一個子序列，通過所述第一大語言模型對各個所述子序列進行分批處理，得到每個所述子序列對應的理解結果；對多個所述理解結果進行融合處理，得到所述待處理視頻對應的目標理解結果。通過本發明的方法，有效減小了大語言模型的上下文長度對視頻理解的限制，大大增加了能夠處理的視頻的時長。

本文源自：金融界

作者：情報員

卓視智通申請基於大模型的長視頻理解專利，有效減小大語言模型上下文長度對視頻理解的限制

相關資訊