2026-03-17 07:47:27

ما هو التقرير الذي جعل ماسك يشعر بعدم التصديق؟

نشرت Moonshot AI (فريق Kimi) مؤخراً تقريراً تقنياً مذهلاً: "Attention Residuals"، وقامت بترقية الاتصالات المتبقية (Residual Connections) التي استخدمت في Transformer لما يقرب من 10 سنوات مباشرة. حتى Elon Musk لم يستطع إلا أن يعلق، وشعر بعدم التصديق (unbelievable مستوى الصدمة).

يمكن تلخيص جوهر هذا التقرير في جملة واحدة:
"توقفوا عن جعل كل طبقة تضيف بشكل أعمى جميع المعلومات من جميع الطبقات السابقة بأوزان متساوية، دعوا النموذج يتعلم استخدام الانتباه لاختيار أي الإشارات من الطبقات المبكرة مفيدة حقاً!"

في Transformer التقليدي (بنية PreNorm)، يكون مخرجات كل طبقة:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)

بشكل مباشر: بغض النظر عما إذا كانت المعلومات من 100 طبقة سابقة مفيدة فعلاً، يتم إضافتها جميعاً دفعة واحدة. كلما زادت عمق الطبقات، تضعفت الإشارات المهمة المبكرة بسبب تخفيفها بواسطة طبقات لاحقة عديدة (يسمونها PreNorm dilution أو representational dilution).

قام فريق Kimi بمبادلة علامة "+" مباشرة بانتباه خفيف عبر الطبقات (depth-wise attention):

الصيغة الجديدة تبدو تقريباً هكذا (نسخة مبسطة):
x_l = Attention( Q=x_l^{pre}, K=ملخص جميع الطبقات السابقة, V=القيم المقابلة ) + أشياء أخرى

التنفيذ الأكثر عملية الذي يسمونه Block AttnRes: كل عدة طبقات (مثلاً 8-16 طبقة) يتم عمل ملخص key/value، ثم استخدام الانتباه لتحديد هذه الملخصات، بدلاً من حساب الانتباه في كل طبقة. بهذه الطريقة يزيد الذاكرة والعمليات الحسابية قليلاً جداً (تأخر الاستدلال أقل من 2%)، لكن النتائج مذهلة.

نتائج تجاربهم (باستخدام نماذج Kimi Linear الخاصة بهم، 48B إجمالي / 3B نشط):
• في نفس FLOPs، تحسن الأداء يعادل مزايا قوة حسابية 1.25 مرة
• تحسن واضح في استدلال التسلسلات الطويلة ومهام الاستدلال المعقد متعدد الخطوات
• حجم الحالات المخفية (الحجم) أكثر استقراراً، على عكس البقايا التقليدية التي تنفجر أو تتحلل مع العمق الأكبر
• نشر التدرج أكثر انتظاماً، مما يجعل الطبقات العميقة أسهل في التدريب

⚠️⚠️

إذن، لماذا رد فعل ماسك قوي جداً؟
"الاتصالات المتبقية كانت نائمة لمدة 8 سنوات، أخيراً شخص ما تجرأ على المساس بها، وبطريقة أنيقة جداً، والنتائج جيدة جداً؟!"

لماذا يجب الانتباه لهذا الشيء؟ لأن الاتصالات المتبقية كانت تقريباً هي خط الإنقاذ الوحيد الذي جعل Transformer قادراً على التدريب إلى 100+ طبقة، وحتى آلاف الطبقات، وكان الجميع يعتقدون أنها محسنة بالفعل ولا يمكن تحسينها. والنتيجة أن Kimi استخدمت آلية الانتباه الأكثر ألفة، وعكست الوضع لعلاج مشاكل البقايا نفسها، وهذا يعني أنهم لعبوا بعبارة "الانتباه هو كل ما تحتاجه" إلى مستوى جديد تماماً.

الآن هناك بالفعل تنفيذ Rust (بناءً على إطار burn)، وصور توضيحية مختلفة على X، وهناك من يقول إن هذا هو نوع آخر من الابتكار المعماري الذي يمكن أن يدخل الجيل القادم من نماذج البرمجيات مفتوحة المصدر والمغلقة، بعد DeepSeek mHC.

إذا كنت تعمل على نماذج كبيرة وتدريب LLM الخاص بك، فهذا التقرير يستحق قراءة النسخة الأصلية والكود طوال الليل (تم بالفعل فتح GitHub).

التقرير:
استعد للاهتزاز 🚀

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2