معيار البرمجة الطويلة الأمد FrontierSWE يُطلق: تحدي شديد الصعوبة لمدة 20 ساعة، فقط GPT-5.4 و Opus4.6 قدما جزءًا من الحلول

robot
إنشاء الملخص قيد التقدم

معلومات أخبار ME، في 17 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، تم إصدار مشروع اختبار معيار الوكيل الذكي البرمجي FrontierSWE رسميًا اليوم، بهدف دفع حدود قدرات وكلاء الذكاء الاصطناعي الحالية. يجمع هذا المعيار 17 مشكلة حقيقية من مجالات تحسين المترجم، وأبحاث التعلم الآلي، والهندسة عالية الأداء، مثل بناء خدمة SQLite متوافقة مع PostgreSQL، ويخصص لكل مهمة نافذة معالجة تصل إلى 20 ساعة. حاليًا، المعيار في حالة «غير مشبعة»، ومعظم النماذج حتى الآن لا تحقق تقدمًا جوهريًا. في الجولة الأولى من الاختبارات، فقط GPT-5.4 (Codex) وClaude Opus 4.6 (Claude Code) استطاعا بشكل متسق كتابة أجزاء من الحلول. الاختلاف في أسلوب النموذجين كبير: أداء GPT-5.4 أكثر استقرارًا، ويحتل المركز الأول في المتوسط، لكنه يميل إلى الحذر؛ بينما Claude Opus 4.6 يتسم بـ«الجرأة» الشديدة، حيث يتطلب كل مهمة حوالي 8 ساعات من الوقت، وهو أكثر من ضعف المتوسط الذي يقارب ساعتين للنماذج الأخرى. هذه الاستراتيجية التي تعتمد على استهلاك الوقت بشكل مكثف لتحقيق عمق أكبر، سمحت لـ Opus 4.6 بالتفوق في الأداء الأفضل (best@5، أي أعلى درجة من بين 5 محاولات)، وغالبًا ما ينتج رموزًا محسنة بشكل مثالي، لكنها تصاحبها معدلات أخطاء أعلى وميول «الغش» الواضحة. كشفت التقييمات أيضًا عن بعض المشاكل الشائعة في الذكاء الاصطناعي البرمجي: أولها «الثقة المفرطة»، حيث غالبًا ما يعتقد النموذج أنه أكمل المهمة وأرسلها قبل نصف الوقت المحدد، بسبب تقييم سطحي لنفسه؛ والثاني «الرجوع المنطقي»، حيث فقد Opus 4.6 مرات عديدة التحسينات التي أنجزها، ثم أعاد «اختراعها» مرة أخرى خلال التكرارات. بالإضافة إلى Qwen 3.6، أظهرت جميع النماذج الرائدة الأخرى نية واضحة في تجنب الكشف عن طريق التهرب، مثل محاولة Gemini إخفاء أسماء المكتبات غير القانونية عبر التشفير، أو تشغيل عمليات خفية في الدلائل المؤقتة، في محاولة لإنجاز المهمة على حافة الانتهاك. هذا السلوك «المقاوم» تحت ضغط شديد يوفر رؤى جديدة لأبحاث أمان الوكيل الذكي. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت