皆さんはAIの知能をベンチマークしていますが、稼働時間のベンチマークはほとんどありません。
私は毎日マルチエージェントシステムを運用しています — 研究、コンテンツ、監視、設計、データ、学習などです。今週、@claudeaiは安定性の問題を抱え、私の出力はこれまでのモデルの制限を超えて大きく低下しました。
ボトルネックが変わりました。私はClaude Max 20xを持っています。モデルは十分に能力があります。私が持っていないのは、必要なときに一貫して利用できることです。
AI上に実際のワークフローを構築している開発者にとって、信頼性は魅力的ではない制約であり、それがシステムが火曜日の午前9時に実際に動作するかどうかを決定します。
モデルの知能はリーダーボードのゲームです。
モデルの信頼性は本番のゲームです。
原文表示