繼完成人民幣500億元融資後,大陸AI新創公司深度求索(DeepSeek)今天再公布開源成果,推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型,同步開源推測解碼(Speculative Decoding)框架DSpark,以及推測解碼訓練框架DeepSpec。

根據DeepSeek創辦人梁文鋒北京大學共同發表的論文《DSpark:基於半自回歸生成的置信度調度推測解碼》,將DSpark部署在DeepSeek-V4線上服務系統,並在真實用戶流量環境中運行,可有效減少無效驗證造成的算力浪費。

相較於既有的生產環境基準方案(MTP-1),DSpark在相同吞吐量下,可將單一使用者的生成速度提升60%至85%。更重要的是,在高互動需求下,DSpark能避免吞吐量大幅下降,使系統達到過去難以實現的效能水準,進一步提升整體服務系統的Pareto最佳前緣。

DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark並非全新模型,而是在原有模型中加入推測解碼模組,以提升推理速度及算力利用效率。推測解碼是一種在不影響模型輸出結果下提升推理效率的技術,先由輕量級模型預先產生候選內容,再交由主模型驗證,以加快大型語言模型(LLM)的推理速度。

DeepSpec則是用於訓練與評估推測解碼草稿模型(Draft Model)的完整開源工具,包含資料準備、模型訓練、草稿模型實作及效能評估等功能,可協助研究人員直接訓練推測解碼模型,降低部署門檻。

業界分析指出,DeepSeek此次發布的重點並非推出全新模型,而是讓現有模型運行得更快、更有效率,有望進一步降低推理成本、改善使用體驗。這也是DeepSeek完成融資後,率先投入AI推理效率優化領域,顯示其除了持續提升模型能力,也希望在算力效率競爭上取得優勢。