ペンシルバニア・ウォートン・スクールの教授 Ethan Mollick は、4/25 の X(旧Twitter)投稿で、学界に強い衝撃を与える観察を提示した。現在の AI agent は、原論文や原コードがなくても、公開されている方法の説明とデータだけで、複雑な学術研究の結果を独立して再現できるというのだ。Mollick はさらに、これらの AI による再現版が元の論文と食い違う場合、「誤りは往々にして AI ではなく、人間が書いた論文それ自体にある」と指摘している。これは、生成型 AI の時代における研究の再現可能性危機に対する、実質的な転機だ――これまで高額な人手が必要だった査読(ピア検証)が、AI によって大規模かつ低コストで実行されつつある。
Claude が複数の論文を再現し、その後 GPT-5 Pro で二重に検証
Mollick は自身の OneUsefulThing ブログと今回の投稿で、Claude に対する具体的な実験を説明している。すなわち、1 本の学術論文を Claude に渡し、アーカイブを開かせ、ファイルを整理させ、統計に使う STATA のコードを Python に自動変換させ、その後論文中のすべての発見を逐一実行させる。Claude の作業が完了したら、同一の再現結果を GPT-5 Pro で二回目の確認を行う。同様の方法で複数の論文がテストされ、結果は概ね成功しており、データファイルが大きすぎる場合、または元の replication data 自体に問題がある場合にのみ支障が出た。
学術界にとって、このプロセスは過去には通常、研究アシスタントが数週間、場合によっては数カ月を費やしていた。Mollick が述べた時間スケールは、午後から 1 日に収まり、運用コストは商用 LLM API のトークン費用だけだ。
誤りは人間の原文に多く、AI ではない
より物議を醸しているのは、Mollick による「誰が間違っているのか」の判断だ。彼は投稿の中で明確に、AI が再現した結果が原論文と一致しない場合、多くの場合 AI が間違えているのではなく、原論文におけるデータ処理の誤り、モデルの誤用、あるいは結論がデータ支援の範囲を超えていることにあると述べている。心理学、行動経済学、経営学などの社会科学では、過去 10 年あまりの間に、複数回の重大な再現可能性危機の出来事がすでに起きており、最も有名なのは 2015 年の Open Science Collaboration による大型再現研究で、心理学の論文結果で独立して再現できたのは約 36% だけだった。AI agent は、この検証プロセスを「人手で人員を割り当てる必要がある」から「誰でも実行できる」境界へ押し広げた。
AI の査読への入稿を依然禁じる、制度は技術に遅れ
Mollick は別の 4/25 の投稿で、自身が所属する分野で最大の学会である Academy of Management が、AI を論文審査のプロセスに明文で禁止していることを具体的に名指しした。彼は既存研究を引用し、AI による査読が、正確性、一貫性、バイアス制御の点で、一部の従来の人間の査読者よりもすでに優れていると指摘した。そのため「禁止」という立場は、逆に既存の査読システムの不全をより重くする可能性がある。こうした制度と技術のギャップは、今後 1〜2 年間、学術出版界、学会、助成機関の双方が直面せざるを得ない政策課題だ。
読者にとって、この議論は学界にとどまらない。AI agent が研究発見を即時に検証できるようになれば、産業界での研究引用、政策レポート、財務上の意思決定における学術的根拠が、「結論が独立した AI による再現に耐えられるか」という新しい検証のハードルに入っていく。Mollick が別の投稿で述べた補足に対応し、彼は政府が、ツールの強度が継続的に上昇していく状況下で、この検証に錨を下ろす唯一の主体だと考えている――そして政策設計の複雑さもまた、AI ガバナンスの議論で比較的見落とされがちな一つの主軸になっていくはずだ。
この記事の AI Agent はすでに複雑な学術論文を独立して再現可能:Mollick は誤りは AI ではなく人間の原文に多いと最初に述べたのは 鏈新聞 ABMedia。
関連記事