☰

蘋果推出開放語言模型 OpenELM；微軟、清華團隊提出多頭混合專家 MH-MoE｜大模型論文

今日值得關注的大模型前沿論文

蘋果推出開放語言模型 OpenELM

Google DeepMind 新研究：減輕說服型生成式 AI 的危害

港科大提出 FlashSpeech：高效零樣本語音合成

多模態語言模型 Pegasus-v1 技術報告

SnapKV：免微調，將 KV 緩存的大小降到最低

清華團隊新研究：通過提示工程在 LLM 中整合化學知識

微軟、清華團隊提出多頭混合專家 MH-MoE

英偉達提出擴散模型採樣新方法 Align Your Steps

ID-Animator：零樣本身份保持人類視頻生成器

1.蘋果推出開放語言模型 OpenELM

大型語言模型（LLMs）的可重複性和透明度，對於推進開放研究、確保結果的可信性、以及對數據和模型偏差以及潛在風險進行調查，至關重要。

蘋果研究團隊推出了一種先進的開放語言模型 OpenELM。OpenELM 使用分層縮放策略，在 transformer 模型的每一層中有效地分配參數，從而提高了準確性。例如，在參數預算約爲 10 億的情況下，OpenELM 的準確率比 OLMo 提高了 2.36%，而所需的預訓練 token 卻減少了 2 倍。

與之前只提供模型權重、推理代碼以及在私有數據集上進行預訓練的做法不同，OpenELM 包含了在公共可用數據集上對語言模型進行訓練和評估的完整框架，包括訓練日誌、多個檢查點和預訓練配置。

此外，他們還發布了將模型轉換爲 MLX 庫的代碼，從而在蘋果設備上進行推理和微調。

論文鏈接：

https://arxiv.org/abs/2404.14619

GitHub地址：

https://github.com/apple/corenet

2.Google DeepMind 新研究：減輕說服型生成式 AI 的危害

最近，生成式人工智能（AI）系統已經顯示出更先進的說服能力，並逐漸滲透到可以影響決策的生活領域。

然而，由於互惠交換和長時間互動的機會，生成式 AI 呈現了一種新的說服風險。這導致人們越來越關注說服型生成式 AI 的危害，以及如何減輕這些危害，從而突出了對說服型生成式 AI 進行系統研究的必要性。目前說服型生成式 AI 的定義不明確，相關的危害也沒有得到充分的研究。現有的減輕危害的方法優先考慮說服結果帶來的危害，而不是說服過程帶來的危害。

在這項研究中，Google DeepMind 團隊及其合作者提出了說服型生成式 AI 的定義，並區分了理性說服型生成式 AI 和操縱型生成式 AI（manipulative generative AI），前者依賴於提供相關事實、合理推理或其他形式的可信證據，後者則依賴於利用認知偏差和啓發式方法或歪曲信息。

他們還提出了服型生成式 AI 的危害，包括經濟、物理、環境、心理、社會文化、政治、隱私的定義和例子。然後，他們提出了一幅導致說服危害的機制圖，概述了可用於減輕說服過程危害的方法，包括操縱分類的提示工程和紅隊。他們未來的工作將使這些緩解措施具有可操作性，並研究不同類型說服機制之間的相互作用。

論文鏈接：

https://arxiv.org/abs/2404.15058

3.港科大提出 FlashSpeech：高效零樣本語音合成

目前，語言模型和擴散模型在大規模零樣本語音合成方面取得了顯著進展。

然而，這兩種方法的生成過程都很慢且計算量很大。使用較低的計算預算進行高效語音合成，達到與之前工作相當的質量，仍然是一個重大挑戰。

來自香港科技大學的研究團隊及其合作者，提出了一個大規模的零樣本語音合成系統——FlashSpeech，與以前的工作相比，它的推理時間大約減少了 5%。FlashSpeech 建立在潛在一致性模型的基礎上，並應用了一種新的對抗一致性訓練方法，無需預先訓練的擴散模型作爲“教師”，即可從頭開始訓練。此外，新的韻律生成器模塊增強了韻律的多樣性，使語音的節奏聽起來更加自然。

FlashSpeech 的生成過程可以通過一個或兩個採樣步驟高效地完成，同時保持高音頻質量和與零樣本語音生成音頻提示的高相似性。實驗結果證明 FlashSpeech 達到了 SOTA。值得注意的是，FlashSpeech 可以比其他零樣本語音合成系統快 20 倍，同時在語音質量和相似性方面保持相當的性能。此外，FlashSpeech 通過有效地執行語音轉換、語音編輯和多樣化的語音採樣等任務展示了其通用性。

論文鏈接：

https://arxiv.org/abs/2404.14700

GitHub 地址：

https://flashspeech.github.io/

4.多模態語言模型 Pegasus-v1 技術報告

Twelve Labs 團隊推出了一種多模態語言模型 Pegasus-1，專門用於通過自然語言理解視頻內容和進行交互。

Pegasus-1 的設計目的是應對視頻數據帶來的獨特挑戰，如解讀時空信息，從而提供不同長度的細微視頻內容理解。該技術報告概述了 Pegasus-1 的架構、訓練策略及其在視頻對話、零樣本視頻問題解答和視頻摘要等基準測試中的表現。他們還探討了 Pegasus-1 的定性特徵，展示了它的能力和侷限性。

論文鏈接：

https://arxiv.org/abs/2404.14687

5.SnapKV：免微調，將 KV 緩存的大小降到最低

目前，大型語言模型（LLMs）在處理大量上下文方面取得了顯著進展，其中鍵值（KV）緩存在提高其性能方面發揮了重要作用。然而，隨着輸入長度的增加，KV 緩存的增長給內存和時間效率帶來了挑戰。

爲此，來自伊利諾伊大學厄巴納香檳分校、Cohere 和普林斯頓大學的研究團隊，提出了一種創新的免微調方法 SnapKV，有效地將 KV 緩存的大小降到最低，同時在實際應用中產生了相當的性能。

他們發現，該模型中的每個注意力頭在生成過程中會持續關注特定的提示注意力特徵。同時，這種魯棒性模式可以從位於提示語末尾的“observation”窗口中獲得。利用這一洞察力，SnapKV 通過爲每個注意力頭選擇重要的 KV 位置集羣來自動壓縮 KV 緩存。

該方法大大減少了處理長輸入序列時不斷增加的計算開銷和內存佔用。具體來說，在處理 16K token 輸入時，SnapKV 實現了穩定的解碼速度，與基線相比，生成速度提高了 3.6 倍，內存效率提高了 8.2 倍。同時，在處理 16 個長序列數據集時，它的性能與基線模型相當。此外，只需稍作改動，SnapKV 就可以在單個 A100-80GB GPU 上實現處理多達 380K 的上下文 token，在 Needle-in-a-Haystack 測試中表現出的準確率下降可以忽略不計。進一步的綜合研究表明，SnapKV 具有實際應用的潛力。

論文鏈接：

https://arxiv.org/abs/2404.14469

6.清華團隊新研究：通過提示工程在 LLM 中整合化學知識

該論文介紹了一項關於整合提示工程中特定領域知識來提高科學領域大型語言模型（LLM）性能的研究。

來自清華大學和牛津大學的研究團隊設計了一個基準數據集，包括了小分子錯綜複雜的物理化學特性，在藥理學上的可藥性，以及酶和晶體材料的功能屬性，強調了其在生物和化學領域的相關性和適用性。通過對麥克米倫催化劑、紫杉醇和氧化鈷鋰等複雜材料的案例研究，證明了該方法的有效性。

研究結果表明，領域知識提示可以引導 LLM 生成更準確、更相關的回答，突出了 LLM 在配備特定領域提示後作爲科學發現和創新的強大工具的潛力。研究還討論了特定領域提示工程開發的侷限性和未來方向。

論文鏈接：

https://arxiv.org/abs/2404.14467

7.微軟、清華團隊新研究：多頭混合專家 MH-MoE

稀疏混合專家（SMoE）模型可在不顯著增加訓練和推理成本的情況下擴展模型容量，但存在以下兩個問題：專家激活率低，只有一小部分專家被激活用於優化；缺乏對單個 token 中多個語義概念的細粒度分析能力。

來自微軟、清華大學的研究團隊提出了多頭混合專家（MH-MoE），它採用多頭機制將每個 token 分割成多個子 token。然後，這些子 token 被分配給一組不同的專家並由它們並行處理，然後無縫地重新整合爲原始 token 形式。多頭機制使模型能夠集體關注不同專家的各種表徵空間的信息，同時顯著提高專家激活度，從而加深對上下文的理解並減輕過度擬合。此外，MH-MoE 易於實現，並與其他 SMoE 優化方法解耦，易於與其他 SMoE 模型集成，從而提高性能。

以英語爲重點的語言建模、多語言語言建模和掩碼多模態建模任務的大量實驗，證明了 MH-MoE 的有效性。

論文鏈接：

https://arxiv.org/abs/2404.15045

8.英偉達提出擴散模型採樣新方法 Align Your Steps

擴散模型已成爲視覺領域及其他領域先進的生成建模方法。

然而，擴散模型的一個缺點是採樣速度慢，需要通過大型神經網絡進行多次連續的函數評估。擴散模型的採樣可以看作是通過一組離散的噪聲水平（即採樣時間表）來求解微分方程。過去的研究主要集中於推導高效的求解器，但很少關注如何找到最佳採樣時間表，所有文獻都依賴於手工製作的啓發式方法。

爲此，來自英偉達、多倫多大學和 Vector 的研究團隊提出了一種通用的原則性方法—— Align Your Steps，來優化擴散模型的採樣計劃，從而獲得高質量的輸出。他們利用隨機微積分的方法，找到了針對不同求解器的擴散模型和數據集的最佳時間表。他們使用各種不同的採樣器，在多個圖像、視頻和 2D 玩具數據合成基準上評估了新方法，並觀察到該優化時間表優於以前的手工製作時間表。他們的方法展示了採樣計劃優化尤其是在幾步合成機制中尚未開發的潛力。

論文鏈接：

https://arxiv.org/abs/2404.14507

項目地址：

https://research.nvidia.com/labs/toronto-ai/AlignYourSteps/

9.ID-Animator：零樣本身份保持人類視頻生成器

生成具有指定身份（ID）的高保真人類視頻，已引起內容生成領域的極大關注。然而，現有技術很難在訓練效率和身份保持（identity preservation）之間取得平衡，要麼需要進行繁瑣的逐個微調，要麼通常會在視頻生成過程中遺漏 ID 細節。

來自中國科學技術大學、中國科學院和騰訊的研究團隊，提出了一種零樣本人類視頻生成方法 ID-Animator，它可以在給定單個參考面部圖像的情況下，無需進一步訓練即可生成個性化視頻。ID-Animator 繼承了現有的基於擴散的視頻生成骨幹技術，並配備了人臉適配器，可從可學習的面部潛在查詢中編碼與 ID 相關的嵌入。

爲了便於在視頻生成過程中提取 ID 信息，他們提出了一個面向 ID 的數據集構建管道，該管道從構建的面部圖像池中整合瞭解耦人類屬性和動作字幕技術。在此基礎上，他們進一步設計了一種隨機人臉參考訓練方法，從而從參考圖像中精確捕捉與 ID 相關的嵌入，從而提高該模型在特定 ID 視頻生成中的保真度和泛化能力。

大量實驗證明，ID-Animator 在生成個性化人類視頻方面達到了 SOTA。此外，他們的方法與流行的預訓練 T2V 模型（如 animatediff 和各種社區骨幹模型）高度兼容，在需要保持 ID 的視頻生成實際應用中具有很高的可擴展性。

論文鏈接：

https://arxiv.org/abs/2404.15275

GitHub 地址：

https://github.com/ID-Animator/ID-Animator

｜點擊關注我記得標星｜

蘋果推出開放語言模型 OpenELM；微軟、清華團隊提出多頭混合專家 MH-MoE｜大模型論文

相關資訊