距離四月下旬已不足數日,DeepSeek V4大模型的發布節奏持續引發關注。就在昨日,該公司研究人員悄然更新了DeepGEMM算子庫,這一動作被業內普遍視為V4臨近發布的信號之一。
為避免外界過度解讀,團隊在更新后特別補充說明:此次調整僅聚焦于DeepGEMM底層算子的開發與優化,與內部大模型的發布時間表無直接關聯。換言之,該次技術演進并非V4即將推出的明確預告。
但恰恰是這類克制的澄清,反而進一步激發了公眾對V4的期待。原因在于,本次DeepGEMM升級本身亮點突出,多項關鍵技術改進與大模型架構演進高度契合,很難不讓人聯想到V4的底層支撐邏輯。
具體來看,此次更新在精度支持方面新增FP8_FP4混合計算能力,并深度適配NVIDIA Blackwell架構;在結構層面則重點引入Mega MoE與HyperConnection兩大新機制。其中,Mega MoE尤為關鍵,有望推動MoE架構實現質的躍升。
根據公開分析,Mega MoE將顯著提升單次推理中被激活的專家數量。相較V3版本固定啟用256個專家,V4預計可動態調度數千個專家單元,在保障模型響應靈活性的同時,大幅增強表達能力與推理質量,且對計算資源和顯存占用的增幅控制在合理區間。
更值得關注的是,此次算子庫更新所透露的參數規模線索也日趨清晰。有分析指出,V4單層MoE結構參數約為25.37B,若沿用60層設計,整體參數量將達約1.6萬億;即便采用48層結構,參數總量亦可達1.25萬億。相較此前市場普遍預期的1萬億參數,1.6萬億意味著提升幅度達60%,性能潛力遠超原有預估。
即便最終落地版本為1.25萬億參數,也已較V3的6700億實現翻倍增長。疊加Mega MoE帶來的數千專家協同機制,V4不僅將刷新MoE類大模型的技術邊界,更可能成為該架構發展進程中具有標志意義的一次跨越。