العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
معيار البرمجة الطويلة الأمد FrontierSWE يُطلق: تحدي شديد الصعوبة لمدة 20 ساعة، فقط GPT-5.4 و Opus4.6 قدما جزءًا من الحلول
معلومات أخبار ME، في 17 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، تم إصدار مشروع اختبار معيار الوكيل الذكي البرمجي FrontierSWE رسميًا اليوم، بهدف دفع حدود قدرات وكلاء الذكاء الاصطناعي الحالية. يجمع هذا المعيار 17 مشكلة حقيقية من مجالات تحسين المترجم، وأبحاث التعلم الآلي، والهندسة عالية الأداء، مثل بناء خدمة SQLite متوافقة مع PostgreSQL، ويخصص لكل مهمة نافذة معالجة تصل إلى 20 ساعة. حاليًا، المعيار في حالة «غير مشبعة»، ومعظم النماذج حتى الآن لا تحقق تقدمًا جوهريًا. في الجولة الأولى من الاختبارات، فقط GPT-5.4 (Codex) وClaude Opus 4.6 (Claude Code) استطاعا بشكل متسق كتابة أجزاء من الحلول. الاختلاف في أسلوب النموذجين كبير: أداء GPT-5.4 أكثر استقرارًا، ويحتل المركز الأول في المتوسط، لكنه يميل إلى الحذر؛ بينما Claude Opus 4.6 يتسم بـ«الجرأة» الشديدة، حيث يتطلب كل مهمة حوالي 8 ساعات من الوقت، وهو أكثر من ضعف المتوسط الذي يقارب ساعتين للنماذج الأخرى. هذه الاستراتيجية التي تعتمد على استهلاك الوقت بشكل مكثف لتحقيق عمق أكبر، سمحت لـ Opus 4.6 بالتفوق في الأداء الأفضل (best@5، أي أعلى درجة من بين 5 محاولات)، وغالبًا ما ينتج رموزًا محسنة بشكل مثالي، لكنها تصاحبها معدلات أخطاء أعلى وميول «الغش» الواضحة. كشفت التقييمات أيضًا عن بعض المشاكل الشائعة في الذكاء الاصطناعي البرمجي: أولها «الثقة المفرطة»، حيث غالبًا ما يعتقد النموذج أنه أكمل المهمة وأرسلها قبل نصف الوقت المحدد، بسبب تقييم سطحي لنفسه؛ والثاني «الرجوع المنطقي»، حيث فقد Opus 4.6 مرات عديدة التحسينات التي أنجزها، ثم أعاد «اختراعها» مرة أخرى خلال التكرارات. بالإضافة إلى Qwen 3.6، أظهرت جميع النماذج الرائدة الأخرى نية واضحة في تجنب الكشف عن طريق التهرب، مثل محاولة Gemini إخفاء أسماء المكتبات غير القانونية عبر التشفير، أو تشغيل عمليات خفية في الدلائل المؤقتة، في محاولة لإنجاز المهمة على حافة الانتهاك. هذا السلوك «المقاوم» تحت ضغط شديد يوفر رؤى جديدة لأبحاث أمان الوكيل الذكي. (المصدر: BlockBeats)