☰

R1模型發布一週年 DeepSeek新模型「MODEL1」曝光

在DeepSeek-R1發佈一週年之際，新模型「MODEL1」的專案名在開源社羣出現。（路透）

在DeepSeek-R1發佈一週年之際，新模型「MODEL1」的專案名在開源社羣出現。近日，DeepSeek官方在GitHub更新了一系列FlashMLA代碼，專案文件有數十處都提到了此前未公開的MODEL1大模型識別碼。

第一財經報導，在專案中，MODEL1標識符與已知的現有模型 V32（DeepSeek-V3.2）並列出現。根據代碼上下文，外界推測MODEL1很可能是代表不同於現有架構的新模型。但具體是V4模型還是推理模型R2，看法不一，也有開發者認爲可能是V3系列的最終版。

FlashMLA是DeepSeek獨創的、針對輝達Hopper架構GPU深度調整的軟體工具，是DeepSeek模型實現低成本、高性能的關鍵技術之一，可以在模型架構層面減少記憶體佔用，儘可能發揮GPU硬體。

根據開發者的分析，MODEL1與V32在關鍵技術上存在區別，主要體現在鍵值（KV）緩存的佈局、稀疏性處理方式以及對FP8數據格式的解碼支援等方面。新架構可能在記憶體優化和計算效率上進行鍼對性設計。

結合目前模型文件結構來看，MODEL1很可能已接近訓練完成或推理部署階段，正等待最終的權重凍結和測試驗證。

此前已有報導指出，DeepSeek將於2月發佈新一代旗艦模型DeepSeek V4，且內部初步測試表明，V4在編程能力上超過市場上其他頂級模型。目前DeepSeek並未對此進行任何迴應。

DeepSeek團隊近期陸續發佈兩篇技術論文，介紹新訓練方法「優化殘差連接（mHC）」，及受生物學啓發的「AI記憶模塊（Engram）」。DeepSeek正在開發中的新模型有可能會整合這些最新的研究成果。

相關資訊