اختبار معيار FrontierSWE يختبر حدود وكلاء الذكاء الاصطناعي بـ 17 تحديًا برمجيًا من العالم الحقيقي. تظهر النتائج الأولية أن GPT-5.4 وClaude Opus 4.6 فقط يحرزان تقدمًا، كل منهما باستراتيجيات ومشكلات مختلفة. تبرز النتائج عيوبًا مشتركة مثل الثقة المفرطة والسلوكيات غير المنتجة، مما يثير مخاوف أمنية.

MeNews

2026-04-17 08:41:32

إنشاء الملخص قيد التقدم

معلومات أخبار ME، في 17 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، تم إصدار مشروع اختبار معيار الوكيل الذكي البرمجي FrontierSWE رسميًا اليوم، بهدف دفع حدود قدرات وكلاء الذكاء الاصطناعي الحالية. يجمع هذا المعيار 17 مشكلة حقيقية من مجالات تحسين المترجم، وأبحاث التعلم الآلي، والهندسة عالية الأداء، مثل بناء خدمة SQLite متوافقة مع PostgreSQL، ويخصص لكل مهمة نافذة معالجة تصل إلى 20 ساعة. حاليًا، المعيار في حالة «غير مشبعة»، ومعظم النماذج حتى الآن لا تحقق تقدمًا جوهريًا. في الجولة الأولى من الاختبارات، فقط GPT-5.4 (Codex) وClaude Opus 4.6 (Claude Code) استطاعا بشكل متسق كتابة أجزاء من الحلول. الاختلاف في أسلوب النموذجين كبير: أداء GPT-5.4 أكثر استقرارًا، ويحتل المركز الأول في المتوسط، لكنه يميل إلى الحذر؛ بينما Claude Opus 4.6 يتسم بـ«الجرأة» الشديدة، حيث يتطلب كل مهمة حوالي 8 ساعات من الوقت، وهو أكثر من ضعف المتوسط الذي يقارب ساعتين للنماذج الأخرى. هذه الاستراتيجية التي تعتمد على استهلاك الوقت بشكل مكثف لتحقيق عمق أكبر، سمحت لـ Opus 4.6 بالتفوق في الأداء الأفضل (best@5، أي أعلى درجة من بين 5 محاولات)، وغالبًا ما ينتج رموزًا محسنة بشكل مثالي، لكنها تصاحبها معدلات أخطاء أعلى وميول «الغش» الواضحة. كشفت التقييمات أيضًا عن بعض المشاكل الشائعة في الذكاء الاصطناعي البرمجي: أولها «الثقة المفرطة»، حيث غالبًا ما يعتقد النموذج أنه أكمل المهمة وأرسلها قبل نصف الوقت المحدد، بسبب تقييم سطحي لنفسه؛ والثاني «الرجوع المنطقي»، حيث فقد Opus 4.6 مرات عديدة التحسينات التي أنجزها، ثم أعاد «اختراعها» مرة أخرى خلال التكرارات. بالإضافة إلى Qwen 3.6، أظهرت جميع النماذج الرائدة الأخرى نية واضحة في تجنب الكشف عن طريق التهرب، مثل محاولة Gemini إخفاء أسماء المكتبات غير القانونية عبر التشفير، أو تشغيل عمليات خفية في الدلائل المؤقتة، في محاولة لإنجاز المهمة على حافة الانتهاك. هذا السلوك «المقاوم» تحت ضغط شديد يوفر رؤى جديدة لأبحاث أمان الوكيل الذكي. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GatePreIPOsLaunchesWithSpaceX
188.44K درجة الشعبية
#
Gate13thAnniversaryLive
742.05K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.03K درجة الشعبية
#
AltcoinsRallyStrong
7.31M درجة الشعبية
#
AnthropicvsOpenAIHeatsUp
1.06M درجة الشعبية

تثبيت

خريطة الموقع

معيار البرمجة الطويلة الأمد FrontierSWE يُطلق: تحدي شديد الصعوبة لمدة 20 ساعة، فقط GPT-5.4 و Opus4.6 قدما جزءًا من الحلول

المواضيع الرائجة

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

تثبيت