Peneliti DeepMind menduga alasan penundaan DeepSeek V4: data pelatihan yang dua kali lipat menjadi 33T menyebabkan ketidakstabilan yang parah

Menurut pemantauan Beating, laporan teknologi DeepSeek V4 mengungkapkan bahwa V4-Flash dan V4-Pro masing-masing melakukan pra-pelatihan pada 32T dan 33T token, yang merupakan dua kali lipat dari sekitar 15T token pada V3.
Laporan mengakui bahwa selama proses pelatihan, “menghadapi tantangan ketidakstabilan yang signifikan”, lonjakan loss (peningkatan mendadak dalam kerugian pelatihan) muncul berulang kali, dan akar penyebabnya adalah nilai ekstrem pada lapisan MoE, mekanisme routing itu sendiri juga akan memperburuk nilai ekstrem ini, rollback sederhana tidak dapat menyelesaikan masalah secara menyeluruh.

DeepSeek menemukan dua solusi dan telah menerapkannya dalam pelatihan nyata: Anticipatory Routing (routing antisipatif), memisahkan perhitungan indeks routing dari pembaruan jaringan utama, hanya secara otomatis memicu saat terdeteksi lonjakan loss, dengan biaya tambahan sekitar 20%; SwiGLU Clamping, membatasi nilai aktivasi ke rentang tetap untuk langsung menekan nilai ekstrem.
Laporan menyatakan kedua metode tersebut efektif, tetapi mengakui bahwa “prinsip dasar belum sepenuhnya dipahami”.

Peneliti Google DeepMind Susan Zhang (yang pernah bekerja di Meta AI dan OpenAI) berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan “menjelaskan penundaan”, dan menggambarkan kedua solusi ini sebagai “plester luka”, sekaligus memuji transparansi teknologi DeepSeek.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan