V4中的訓練後進化:OPD取代混合RL,將多個專家模型蒸餾成一個

根據 Beating 的監測,DeepSeek V4 的訓練後方法已經發生了重大變化:V3.2 的混合強化學習階段已被 On-Policy Distillation (OPD) 完全取代。新流程包括兩個步驟。在第一步,基於 V3.2 流程,對數學、編碼、代理行為和指令跟隨等領域的專家模型進行訓練。每個專家經過微調,然後使用 GRPO 進行強化學習。在第二步,一個多教師 OPD 將十多位專家的能力蒸餾成一個統一模型:學生根據其自身生成的軌跡,對每個教師在整個詞彙表上進行反向 KL 散度對數蒸餾,將對數對齊以將多個專家權重合併到一個統一的參數空間,從而避免傳統權重合併和混合強化學習中常見的能力衝突。該報告還介紹了生成獎勵模型 (GRM):對於難以用規則驗證的任務,並非訓練傳統的標量獎勵模型,而是利用指導標準的 RL 數據來訓練 GRM,允許演員網絡同時生成和評估,實現對複雜任務的泛化,並配合少量多樣的人類標註。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言