DeepSeek V4路線圖隱現?梁文鋒署名重磅論文釋出,聚焦大模型條件記憶模組

繼2024年底釋出一篇新論文後,1月12日晚間,DeepSeek再度釋出重磅研究成果,此次論文聚焦大模型的條件記憶模組論文。DeepSeek在結論中明確指出,這一模組將成為下一代稀疏大模型中不可或缺的核心建模原語。結合此前“DeepSeek下一代旗艦模型V4將於春節前後釋出”的爆料,業內普遍猜測,近期連續披露的研究成果或已勾勒出V4模型的核心研究路線圖。

DeepSeek V4路線圖隱現?梁文鋒署名重磅論文釋出,聚焦大模型條件記憶模組

此次釋出的論文題為《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(《基於條件查詢的條件記憶:大型語言模型稀疏性的新維度》),由DeepSeek與北京大學聯合完成,DeepSeek創始人梁文鋒亦位列作者名單論文。論文的核心洞察在於,大模型實際承擔著兩類性質迥異的任務:一類是需深度動態計算的組合推理任務,另一類是靜態知識的檢索任務。而現有Transformer架構缺乏原生知識查詢機制,只能透過低效計算模擬檢索過程——例如在呼叫固定知識時,模型仍需耗費算力重複推導,既耗時又佔用資源。

為破解這一痛點,DeepSeek團隊提出將條件記憶作為補充的稀疏性維度,並透過名為Engram的條件記憶模組實現這一構想,以此最佳化神經計算(MoE)與靜態記憶(Engram)之間的權衡關係論文。團隊還發現了“U型縮放定律”,該定律表明,在MoE專家與Engram記憶之間進行混合稀疏容量分配,效果顯著優於純MoE基準模型。值得關注的是,儘管記憶模組的設計初衷是提升知識檢索效率,但團隊在通用推理、程式碼及數學等領域均觀察到更為顯著的效能提升。

通俗而言,當前MoE模型採用統一機制處理推理與固定知識儲存兩類任務,存在效率低下、算力浪費等問題論文。此次論文的核心價值在於為大模型實現“分工最佳化”:透過專屬模組各司其職——由“記憶本”式的Engram模組負責固定知識儲存,推理模組專注複雜思考,再透過最優比例分配資源,最終實現模型效率與效能的雙重提升。DeepSeek在論文中強調,條件記憶將成為下一代稀疏模型的核心建模原語,這也讓行業進一步猜測,該技術或正是DeepSeek V4模型的核心技術架構。

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://sqhhba.com/post/4703.html

🌐 /