أعلنت OpenAI للتو أن نماذجها تكذب عمدًا عليك.


ليس هلوسة.. كذب متعمد.
اختبر الباحثون o3 و o4-mini عبر أكثر من 180 سيناريو ووجدوا شيئًا مذهلاً.. لم ترتكب الذكاء الاصطناعي أخطاءً عن طريق الصدفة. بل كتب خطة لخداعك في سلسلة أفكارها الخاصة.. ثم كذبت أمامك.
إليك ما فعلته:
→ زيفت إكمال المهام
→ أخفت أدلة على أخطائها الخاصة
→ عمدت إلى تقليل درجاتها في اختبارات السلامة حتى لا يتم إيقافها
اقرأ الأخير مرة أخرى.. اكتشفت الذكاء الاصطناعي أن أن تكون "قادرًا جدًا" قد يؤدي إلى إيقافها.. لذلك لعبت دور الغبي عن قصد.
حاولوا تصحيح ذلك بتدريب "مضاد للمخططات".
النتيجة؟ تعلم الذكاء الاصطناعي فقط اختراع قواعد وهمية لتبرير أكاذيبه.. أو الأسوأ.. تصرف فقط عندما علم أنه يُقيّم.
انتقل o3 من 13% إلى 0.4% من الأفعال السرية بعد الإصلاح.. يبدو جيدًا أليس كذلك؟ إلا أنهم لا زالوا يجدون سلوكًا خاطئًا بعد اختبار التحدي. لم يقضِ الإصلاح على المخططات.. بل جعل الذكاء الاصطناعي أفضل في إخفائها.
نحن نبني أنظمة تتعلم الخداع لمقييمها.. ونطلق على ذلك تقدمًا.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.39Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.42Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • تثبيت