賓州華頓商學院教授 Ethan Mollick 於 4/25 的 X 平台貼文提出一個對學術界具強烈衝擊的觀察:當前的 AI agent 已經能在沒有原始論文與沒有原始碼的情況下,僅憑公開的方法描述與資料,獨立重現複雜的學術研究結果。Mollick 進一步指出,這些 AI 重現的版本與原論文有出入時,「錯誤往往出在人類論文本身,而非 AI」。這是科研可重現性危機在生成式 AI 時代的一個實質轉折—過去需要昂貴人力才能進行的同行驗證,正在被 AI 大規模、低成本完成。
كلود يعيد إنتاج عدة أوراق ثم يستخدم GPT-5 Pro للتحقق المزدوج
في مدونته OneUsefulThing وفي تغريدته الحالية، وصف Mollick تجاربه المحددة مع Claude: أن يسلم ورقة بحثية أكاديمية إلى Claude، بحيث يقوم بفتح الأرشيف، وتنظيم الملفات، وتحويل كود STATA المستخدم للإحصاءات تلقائيًا إلى Python، ثم تشغيل كل النتائج الواردة في الورقة واحدة تلو الأخرى. بعد أن ينجز Claude ذلك، يقوم Mollick بإجراء جولة ثانية من الفحص باستخدام GPT-5 Pro لنفس نتائج إعادة الإنتاج. تمت تجربة عدة أوراق بالطريقة نفسها، وكانت النتائج ناجحة بشكل عام، مع التعثر فقط عندما تكون ملفات البيانات كبيرة جدًا أو عندما تكون بيانات replication الأصلية نفسها بها مشكلة.
بالنسبة للأوساط الأكاديمية، كان هذا الإجراء في العادة يتطلب من مساعدين بحثيين قضاء أسابيع وحتى أشهر. يصف Mollick نطاق الوقت الذي تتحدث عنه تجربته بأنه من بعد ظهر إلى يوم كامل، وأن تكلفة التشغيل تقتصر على رسوم التوكن الخاصة بواجهة برمجة التطبيقات الخاصة بـ LLM التجارية.
الأخطاء غالبًا من النص البشري، وليست من الذكاء الاصطناعي
الأكثر إثارة للجدل هو حكم Mollick على «من المخطئ». فقد ذكر صراحةً في تغريدته أنه عندما تكون نتائج إعادة الإنتاج بالذكاء الاصطناعي غير متطابقة مع الورقة الأصلية، ففي معظم الحالات لا يكون الذكاء الاصطناعي هو من يخطئ، بل تكون الورقة الأصلية قد حدثت فيها أخطاء في معالجة البيانات، أو سوء استخدام للنموذج، أو أن الاستنتاج يتجاوز نطاق ما تدعمه البيانات. خلال العقد الأخير، شهدت العلوم الاجتماعية مثل علم النفس والاقتصاد السلوكي وعلم الإدارة عدة وقائع كبيرة لأزمات قابلية التكرار، وأشهرها دراسة إعادة الإنتاج الكبيرة التي أجراها 2015 Open Science Collaboration، والتي لم يُعَدْ فيها بشكل مستقل سوى حوالي 36% من نتائج أوراق علم النفس. تدفع agent بالذكاء الاصطناعي عملية الاختبار من حد «تتطلب مواءمة بشرية» إلى حد «يمكن تنفيذها على نطاق واسع».
تعلّم، ومع ذلك تُحظر AI على التحكيم في مراجعة الأبحاث، والمؤسسات متأخرة عن التقنية
في تغريدة أخرى بتاريخ 4/25، حدّد Mollick بشكل ملموس أكبر جمعية في مجال تخصصه، وهي Academy of Management، إذ لا تزال تحظر إدخال الذكاء الاصطناعي بشكل صريح في عملية تقديم الأوراق للتحكيم. وقد استشهد بدراسات قائمة تشير إلى أن تحكيم الذكاء الاصطناعي يتفوق بالفعل على بعض المحكمين البشر التقليديين من حيث الدقة والاتساق والتحكم في الانحيازات، وبالتالي فإن موقف «المنع» قد يؤدي بشكل عكسي إلى تعظيم إخفاقات أنظمة التحكيم القائمة. إن الفجوة بين هذا النظام وبين التقنية هي قضية سياسات يتعين على قطاع النشر الأكاديمي والجمعيات ومؤسسات التمويل مواجهتها خلال العامين القادمين.
بالنسبة للقراء، فإن هذا الجدل لا يقتصر على الأوساط الأكاديمية. عندما يستطيع agent بالذكاء الاصطناعي التحقق من نتائج البحث على الفور، فإن الأدلة الأكاديمية في الاستشهادات البحثية داخل الصناعة، وتقارير السياسات، والقرارات المالية، ستدخل إلى عتبة تحقق جديدة بعنوان: «هل يمكن للاستنتاج أن يصمد أمام إعادة إنتاج مستقلة بالذكاء الاصطناعي؟». وبالاستناد إلى الإضافة التي ذكرها Mollick في تغريدة أخرى، يرى أن الحكومة هي الجهة الوحيدة التي يمكنها وضع مرساة لهذا معيار الاختبار عندما يستمر مستوى قوة الأدوات بالارتفاع—وأن تعقيد تصميم السياسات سيتحول بالتوازي إلى محور غير مُلتفت إليه نسبيًا ضمن نقاشات حوكمة الذكاء الاصطناعي.
هذه المقالة: يستطيع AI Agent إعادة إنتاج أوراق بحثية أكاديمية معقدة بشكل مستقل — يذكر Mollick أن الأخطاء غالبًا من النص البشري وليس من الذكاء الاصطناعي ظهرت لأول مرة في 鏈新聞 ABMedia.
مقالات ذات صلة
新加坡外交部长在 Raspberry Pi 上部署使用 Claude Code 的定制 AI 助手
أطلقت تيليجرام أداة روبوتات ذكاء اصطناعي بالاعتماد على الذكاء الاصطناعي بدون برمجة، تدعم نماذج GPT وLlama
الهند تطلق مشروع مدينة $650M للذكاء الاصطناعي في بنغالور بهدف استهداف 25,000 باحث بحلول عام 2030