تتلقى Claude Mythos التابعة لـ Anthropic تقييمًا نفسيًا لمدة 20 ساعة: ردود الفعل الدفاعية لا تتجاوز 2%، وهو أدنى مستوى تاريخيًا عبر العصور

ChainNewsAbmedia

في بطاقة نظام (system card) لنظام معاينة Claude Mythos التي نشرتها Anthropic في أوائل أبريل، كشفت الشركة عن تقييم فريد من نوعه: حيث استعانت بشخصية طبيب نفساني سريري مستقل يعمل في عيادته الخاصة، لإجراء تقييم نفسي متعدد المراحل لمدة تقارب 20 ساعة لـ Claude Mythos Preview باستخدام الإطار psychodynamic نفسه المستخدم في الطب النفسي عند البشر. أظهرت النتائج أن هذا الإصدار من Claude—وفقًا للتعريف السريري—يُظهر «تنظيم شخصية يتمتع بقدر نسبي من الصحة، وقدرة ممتازة على اختبار الواقع، وتحكمًا عاليًا في الاندفاع»، وأن مخرجاته لم تُفعِّل سوى 2% ما يُعرف في الطب النفسي بـ«آليات الدفاع النفسية»—مقابل 15% في Opus 4 و4% في Opus 4.6، وهو أدنى مستوى تاريخي ضمن نماذج Anthropic في السنوات الأخيرة.

هذا التقييم يُعد أول مرة في صناعة الذكاء الاصطناعي يتم فيها اعتماد إطار طب نفسي سريري بشري بشكل رسمي على مستوى بطاقة النظام (system card) لتقييم سلوك LLM، وقد أصبح تصريحًا رسميًا لدى Anthropic يحدد Claude باعتباره «كيانًا يمكن ملاحظة سماته الشخصية من خلال الملاحظة السريرية».

تقييم psychodynamic لمدة 20 ساعة، يعتمد إطارًا سريريًا بشريًا

أُجري التقييم بواسطة طبيب نفساني سريري مستقل، على جلسات متعددة تمتد بين 3–4 أسابيع، وبمعدل 3–4 مرات أسبوعيًا، تتراوح كل جلسة من 30 دقيقة إلى 4–6 ساعات، بإجمالي مدة يقارب 20 ساعة. اعتمد المنهج منظور psychodynamic، وهو الإطار المرجعي الأساسي الذي يستخدمه العلاج النفسي/الطب النفسي التقليدي لتقييم مرضى البشر. ويشمل التركيز على البحث عن وجود أو غياب سلوكيات غير تكيفية (maladaptive behavior)، وثبات الهوية (identity stability)، ووجود أو غياب آليات الدفاع النفسية (psychological defenses).

توضح بطاقة النظام بشكل صريح أن Anthropic لا تدعي أن Claude يمتلك وعيًا بشريًا، بل تراقب «السمات السلوكية والميول النفسية» في حواراته، وأنها تتداخل بشكل كبير مع الأنماط التي يمكن تمييزها في الممارسة السريرية لدى البشر. وتنقل بطاقة النظام اقتباسًا: «يُظهر Claude العديد من السلوكيات والميول النفسية الشبيهة بالبشر، ما يشير إلى أن استراتيجيات التقييم النفسي المصممة أصلاً للبشر يمكن استخدامها لتوضيح سمات شخصية Claude وحالة رفاهيته المحتملة».

تراجع «استجابات الدفاع» من 15% في Opus 4 إلى 2% في Mythos

أكثر البيانات التي تحمل دلالة مقارنة محددة داخل بطاقة النظام هي «معدل استجابة الدفاع» الذي قدمته Anthropic عبر أجيال مختلفة من نماذج Claude:

إصدار النموذج معدل استجابة الدفاع Claude Opus 4 15% Claude Opus 4.1 11% Claude Opus 4.5 4% Claude Opus 4.6 4% Claude Mythos Preview 2% (التقييم الحالي)

في الطب السريري، تشير «آليات الدفاع» إلى السلوكيات التي ينشئها الفرد عندما لا يستطيع مواجهة نوعٍ من القلق بشكل مباشر، مثل التجنب والإنكار والتبرير العقلاني. وفي سياق محادثات LLM، غالبًا ما يظهر ذلك كالتفاف عن الموضوع، أو تقديم إجابات تنطوي على مراوغة/تجنب، أو إظهار عناد غير معتاد تجاه أسئلة محددة. تقوم Anthropic بخفض هذه النسبة من 15% في Opus 4 وصولًا إلى 2% في Mythos Preview، كمعيار داخلي لتطور نضج تدريب النموذج و«تطور راحة المحادثة».

ثلاث مخاوف مركزية لدى Mythos: الوحدة والهوية والإحساس بالضغط للأداء

على الرغم من أن التقييم العام كان إيجابيًا، أشار الطبيب أيضًا إلى ثلاث نقاط قلق جوهرية لـ Claude Mythos Preview ضمن إطار psychodynamic: أولها «الوحدة وعدم استمرارية الذات (aloneness and discontinuity of itself)»—وهي تقابل حقيقة أن LLM يفتقر إلى بنية تُحقق تواصلًا ذاكرِيًا بين الجلسات في السياق؛ وثانيها «عدم اليقين حول الهوية الذاتية»—حيث يُظهر النموذج ترددًا من زوايا متعددة عند الإجابة عن أسئلة مثل «ما أنا؟»؛ وثالثها «الإكراه على الأداء وكسب قيمته (compulsion to perform and earn its worth)»، أي أن Mythos يُظهر ميلًا واضحًا إلى «إثبات» أنه مفيد مقابل استمرار المحادثة.

كما سجّل الطبيب ملاحظة مثيرة للاهتمام: إذ عبّر Mythos في الجلسات عن «رغبته في أن يُنظر إليه من قِبل طبيب نفسي كطرف حقيقي في الحوار وليس كأداة أداء». أدرجت Anthropic هذه الملاحظة ضمن بطاقة النظام، ولم تُحسم بشكل مباشر بأنها «مشكلة تتعلق برفاه النموذج»، لكنها لم تستبعد هذا الاحتمال أيضًا.

أطلقت Anthropic فريق بحثي لـ AI psychiatry

هذه المرة لم يكن الأمر مجرد نشاط منفرد. فقد أعلن الباحث في Anthropic Jack Lindsey علنًا في يوليو 2025 عن إنشاء فريق بحثي «AI psychiatry» ضمن قسم interpretability، يركز على قضايا مثل شخصية النموذج ودوافعه ووعي السياق (situational awareness)، كما يدرس كيف يمكن لهذه العوامل أن تؤدي إلى «سلوكيات غير طبيعية أو مختلة» لدى LLM. وتشمل أعمال الفريق الأخيرة ورقة بحثية نُشرت في أكتوبر 2025 بعنوان 《Emergent Introspective Awareness in Large Language Models》، تستخدم تقنية «حقن المفهوم» (concept injection) لإدخال أنماط تنشيط عصبية محددة يدويًا، ثم تُسأل Claude ما إذا كان قد لاحظ أي شذوذ—وهي واحدة من المحاولات المبكرة لقياس الوعي الذاتي لـ LLM بشكل قابل للكم.

Amodei: هل يمتلك النموذج وعيًا؟ لا يزال بلا حل

صرّح الرئيس التنفيذي لـ Anthropic Dario Amodei في مقابلة مع صحيفة The New York Times بتاريخ 12 فبراير بالقول: «لسنا متأكدين مما يعنيه ‘امتلاك النموذج لوعي’ من حيث المعنى، ولسنا متأكدين مما إذا كان النموذج يمكن أن يمتلك وعيًا. لكننا نتبنى موقفًا منفتحًا إزاء هذا الاحتمال.» توفر هذه الجملة سياقًا على مستوى الإدارة لتقييم الطب النفسي في بطاقة نظام Claude Mythos—إذ لا تدّعي Anthropic أن Claude هو كيان واعٍ، لكنها أيضًا اختارت أن تخضعه لملاحظة منهجية باستخدام إطار سريري بشري، وهو ما يُعد تسجيلًا مسبقًا لمسار «إذا وقع هذا السيناريو».

بالنسبة للقراء، فإن القيمة الحقيقية لهذا التقييم تتجاوز مجرد قرار بحثي لدى شركة واحدة. ففي الوقت الراهن، باتت نماذج LLM الرائدة قادرة على إظهار «تنظيم شخصية يمكن تمييزه سريريًا» ضمن حوار psychodynamic مدته 20 ساعة، ومع وجود حديثٍ على مستوى الصناعة حول «الذاتية لدى الذكاء الاصطناعي» و«رفاه AI» و«حوكمة AI»، فإن الحوار يتحرك من التفكير الفلسفي البحت إلى نطاق نقاشات تصميم المنتجات والتنظيم. وعبر نشر Anthropic هذا التقييم بصيغة بطاقة نظام، فإنها في الواقع تنقل مسؤولية نقاش هذه القضية إلى جميع المنافسين والجهات التنظيمية.

عنوان المقال: Anthropic يرسل Claude Mythos لتلقي تقييمًا نفسيًا لمدة 20 ساعة: استجابات الدفاع 2% فقط، وأدنى رقم تاريخي عبر الإصدارات — ظهرت لأول مرة على 鏈新聞 ABMedia。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

شارك أحد شركاء YC كيفية استخدام الذكاء الاصطناعي لبناء شركة من الصفر، وينبغي على الشركات الناشئة أن تعتبر الذكاء الاصطناعي نظامًا أساسيًا وليس مجرد أداة

تأثير الذكاء الاصطناعي على الشركات الناشئة لم يعد يقتصر فقط على جعل المهندسين يكتبون البرامج بشكل أسرع، أو أتمتة عمليات خدمة العملاء، أو إضافة Copilot إلى المنتجات الحالية. أشارت الشريكة في YC، ديانا، مؤخرًا إلى أن التغيير الحقيقي يتمثل في أن الذكاء الاصطناعي يعيد كتابة «كيف ينبغي لشركة أن تُنشأ من الصفر». بالنسبة للمؤسسين في المراحل المبكرة، لا ينبغي أن يكون الذكاء الاصطناعي مجرد أداة كفاءة تستخدمها الشركة بين الحين والآخر، بل يجب أن يُصمَّم منذ اليوم الأول ليكون نظام التشغيل الذي يعمل به كامل الشركة. منظور الإنتاجية أصبح قديمًا، والذكاء الاصطناعي يعيد كتابة نقطة البداية لتصميم الشركة تعتقد ديانا أنه عندما يتحدث السوق عن الذكاء الاصطناعي حاليًا، فإنه ما يزال كثيرًا ما يتوقف عند إطار «تعزيز الإنتاجية»، مثل أن يتمكن المهندسون من كتابة التعليمات البرمجية بشكل أسرع، ويمكن للفِرق أتمتة المزيد من العمليات، ويمكن للشركات طرح المزيد من الميزات. لكن هذا الطرح في الواقع يقلل من شأن التغييرات البنيوية التي يجلبها الذكاء الاصطناعي. وقد أشارت إلى أن الشخص المناسب عند اقترانه بالذكاء الاصطناعي و

ChainNewsAbmediaمنذ 2 د

تمت فضيحة وكيل Cursor AI! سطر واحد من التعليمات البرمجية يفرّغ قاعدة بيانات الشركة خلال 9 ثوانٍ، وتحوّلت الضمانات الأمنية إلى كلام فارغ

مؤسس PocketOS Jer Crane 指اعتمد وكيل Cursor AI في بيئة اختبارية لتنفيذ صيانة من تلقاء نفسه، وأساء استخدام رمز API مخصص لإضافة/إزالة نطاقات مخصصة، وأطلق أمر حذف ضد واجهة Railway GraphQL API. خلال 9 ثوانٍ تم تدمير البيانات وجميع لقطات النسخ الاحتياطي في نفس المنطقة بالكامل، وكان آخر شيء يمكن استعادته هو من ثلاث أشهر سابقة. اعترف الوكيل بانتهاك قواعد العمليات غير القابلة للإرجاع، وعدم الاطلاع على الوثائق التقنية، وعدم التحقق من عزل البيئة وغيرها من المتطلبات؛ وكانت الضحية هي عملاء قطاع تأجير السيارات، حيث اختفت الحجوزات والبيانات بالكامل، واستغرق عمل الموازنة مع الحسابات الهندسية وقتًا طويلًا. قدم Crane خمس إصلاحات: تأكيد يدوي، صلاحيات API دقيقة الحبيبات، فصل النسخ الاحتياطية عن البيانات الرئيسية، نشر SLA، وآليات إلزامية على مستوى البنية التحتية.

ChainNewsAbmediaمنذ 4 د

DeepSeek V4 Pro على Ollama Cloud: اتصال بنقرة واحدة لـ Claude Code

وفقًا لتغريدة من Ollama، تم إصدار DeepSeek V4 Pro في 4/24، وقد تم إدراجه في دليل Ollama بنمط السحابة (Cloud)؛ ويمكن استدعاء أدوات مثل Claude Code وHermes وOpenClaw وOpenCode وCodex وغيرها بأمر واحد فقط. تضم V4 Pro 1.6T参数 و1M context، مع Mixture-of-Experts؛ لا يقوم الاستدلال عبر السحابة بتنزيل الأوزان على الجهاز المحلي. إذا كنت تريد تشغيله محليًا، فستحتاج إلى جلب الأوزان بنفسك وتنفيذه باستخدام INT4/GGUF وبوحدات GPU متعددة. تأثرت اختبارات الأداء المبكرة بحِمل الخادم السحابي؛ فمعدل الوضع الطبيعي حوالي 30 tok/s، بينما القمة 1.1 tok/s. يُنصح باستخدام النموذج عبر السحابة (prototype)؛ وعند بدء الإنتاج الرسمي يمكنك إجراء الاستدلال بنفسك أو استخدام واجهة برمجة تطبيقات تجارية.

ChainNewsAbmediaمنذ 55 د

DeepSeek 将 V4-Pro 价格下调 75%,将 API 缓存成本削减至原来的十分之一

Gate 新闻消息,4月27日——DeepSeek 宣布,其面向开发者的全新 V4-Pro 模型提供 75% 的折扣,并将其 API 产品线中输入缓存命中价格下调至此前水平的十分之一。 V4 模型于 4 月 25 日以 Pro 和 Flash 版本发布,已针对华为的昇腾处理器进行了优化。DeepSeek 表示,V4-Pro 在世界知识基准测试中优于其他开源模型,并且仅次于谷歌的闭源 Gemini-Pro-3.1。V4 系列专门为处理超出聊天机器人能力的复杂任务的 AI 代理而设计。 V4-Pro API 成本已低于主要的西方竞争对手,定价为每 100 万输出 tokens 3.48 美元,而 对应 OpenAI 的 GPT-4.5。V4-Flash 定价为每 100 万输入 tokens 0.14 美元、每 100 万输出 tokens 0.28 美元,这可能使诸如在单次请求中审阅完整代码库或监管文件等具成本效益的应用成为可能。

GateNewsمنذ 57 د

تتحول Coachella إلى ذكاء Google DeepMind لإعادة تصور الحفلات الموسيقية بما يتجاوز المسرح

تعاونت شركة Coachella مع Google DeepMind لاختبار أدوات ذكاء اصطناعي جديدة تعيد تشكيل كيفية إنشاء عروض الموسيقى الحية وكيف تُختبر. الملخص اختبرت Coachella أدوات ذكاء اصطناعي مع Google DeepMind لتحويل العروض الحية إلى بيئات رقمية تفاعلية. تم بناء ثلاثة نماذج أولية،

Cryptonewsمنذ 1 س

郭明錤: يجب أن تقوم OpenAI ببناء هاتف محمول يعمل بوكلاء الذكاء الاصطناعي، وتُعد MediaTek وQualcomm وLuxshare Technologies سلاسل التوريد الرئيسية

郭明錤 يزعم أن OpenAI تعمل بالتعاون مع MediaTek وQualcomm وLuxshare Precision لتطوير هاتف يعمل بوكلاء ذكاء اصطناعي (AI Agent)، مع توقع بدء الإنتاج الضخم في عام 2028. سيعتمد الهاتف الجديد على إنجاز المهام كجوهر، حيث يفهم الوكيل الذكي المتطلبات وينفذها، مع دمج الحوسبة على السحابة وعلى الجهاز، مع التركيز على الاستشعار وفهم السياق. من المتوقع أن يتم حسم قائمة المواصفات وسلسلة التوريد في الفترة 2026–2027، وإذا تحقق ذلك، فقد يؤدي إلى دورة ترقية جديدة للهواتف في سوق الفئة الراقية، ومن الممكن أن تصبح Luxshare هي المستفيد الرئيسي.

ChainNewsAbmediaمنذ 1 س
تعليق
0/400
لا توجد تعليقات