英伟达の「神秘的なチップ」の背後—推理時代の到来とともに「四つの新しい計算力のトレンド」が始まる

robot
概要作成中

英伟达はLPU(言語処理ユニット)技術とOpenAIの多線推論チップを統合し、AIの計算能力競争の主戦場を訓練から推論へと切り替えている。申万宏源研究は、2026年の計算力産業の核心キーワードは推論となり、Token消費総量と技術パラダイムの両面で深く再構築されるだろうと予測している。

2月28日、ウォールストリートジャーナルによると、英伟达は来月のGTC開発者会議で、Groqの「言語処理ユニット」(LPU)技術を統合した新しい推論チップを発表予定であり、英伟达のCEO黄仁勋はこれを「世界未曾有の新システム」と称している。OpenAIはこのプロセッサの最大顧客の一つとなることに同意し、英伟达から大規模な「専用推論能力」を購入する予定だ。

同時に、OpenAIは先月、スタートアップのCerebrasと数十億ドル規模の計算協力を締結し、後者は推論チップの速度が英伟达のGPU(グラフィックス処理ユニット)を超えたと主張している。この一連の動きは、AI大手が訓練計算能力の軍拡競争から、推論計算能力の多線展開へとシフトしていることを示している。

申万宏源の報告によると、Token経済時代において推論計算能力は四つの大きなトレンドを迎えている。一つは純粋なCPU(中央処理装置)の展開シナリオの増加で、低コスト推論需要が計算力の下層化を加速させている。二つはLPUなどの専用アーキテクチャの台頭で、GPUの推論における支配的地位に挑戦している。三つは国内製計算チップの突破が加速し、サプライチェーンの多元化が明確になっている。四つは推論計算能力の需要構造が「一回の訓練」から「大量Token消費」へと変化し、コストパフォーマンスが競争の核心要素となっている。

報告書は、「十分な高コスパの推論チップを提供できる企業が最も恩恵を受ける」とし、CPU、LPU、国内チップの共同突破がこの計算力格局の再構築の核心線となっていると指摘している。

推論需要の全面爆発、Token消費が過去最高を記録

申万宏源研究は、需要の持続的拡大の背景には二つの構造的推進力があると分析している。一つは大規模モデルの収益化の加速で、Claudeなどのモデルが応用段階に入り、多くの業界プラグインをリリースしていること。もう一つはエージェントの実用化の加速で、OpenClawや千問エージェントなどの製品が、エージェントが実際の作業や生産シーンに入りつつあることを示している。これらのモデル呼び出しやエージェントタスクの実行には、膨大な推論計算能力が必要となる。

申万宏源のデータによると、春節期間中、中国のトップモデルの推論量は大幅に増加している。例えば、豆包は除夕の日に推論スループットが633億Tokenに達し、月間アクティブユーザーは1.14億にのぼった。千問の「春節大免単」キャンペーンには1.2億人以上が参加した。

世界のAIモデルAPI集約プラットフォームOpenRouterのデータもこのトレンドの規模を示している。2月9日から15日の週、中国モデルの呼び出し量は4.12兆Tokenに達し、米国モデルの2.94兆Tokenを初めて上回った。16日から22日の週には、中国モデルの呼び出し量はさらに5.16兆Tokenに増加し、三週間で127%増となった。世界の呼び出し量トップ5のモデルのうち、中国製が4つを占めている。

LPUが新星に、訓練と推論のチップが分化へ

英伟达は、Groqのコア技術ライセンス取得に200億ドルを投じ、「コア採用」取引で創始者のJonathan Rossを含む幹部チームを迎え入れた。申万宏源の研究は、この取引は純粋な推論チップの重要性がトッププレイヤーに正式に認められた証左だと見ている。

LPUと従来のGPUのアーキテクチャの違いこそ、推論シナリオにおいて効率性の優位性を持つ根本的な理由だ。AI推論は事前充填とデコードの二段階に分かれ、大規模モデルのデコードは特に遅い。LPUは遅延とメモリ帯域の二大推論ボトルネックに対し、専用の最適化を施している。ウォールストリートジャーナルの報道によると、英伟达の次世代Feynmanアーキテクチャや、より広範なSRAM統合、さらには3D積層技術によるLPUの深度統合も検討されている。

申万宏源は、今後のAIチップは明確な技術分業の構図を形成すると予測している。訓練用にはGPU-HBMの組み合わせを継続し、推論用にはASIC+LPU-SRAM+SSDの構成へと進化する。計算力需要が訓練から推論へとシフトする中、推論専用チップを手掛ける企業には成長の機会が訪れる。

推論システムの全面革新、CPUとネットワーク需要も同時に高まる

単一チップからシステムレベルの革新へと進むことも、今回の推論計算能力向上の重要な側面だ。申万宏源は、アプリケーションのシナリオがチャットボットからエージェントへと移行するにつれ、遅延、スループット、思考深度の要求が同時に高まり、システムアーキテクチャは三層ネットワークへと進化していると指摘している。

第一層は高速反応層で、SRAM搭載の純推論チップが極めて低遅延のフィードバックを提供。第二層は遅い思考層で、超大規模なスループットを持つクラスターが複雑な論理推論を担当し、多核・多スレッドのCPUの需要が大きくなる。第三層は記憶層で、英伟达のContextMemory Systemを用いたBluefield4 DPUが長期記憶とKVキャッシュを管理する。

英伟达もハードウェア戦略を調整している。従来のVera CPUとRubin GPUのバンドル展開は、特定のAIエージェント負荷ではコスト過多と判明した。今月、英伟达はMeta Platformsとの協力を拡大し、初の大規模純CPU展開を完了。Metaの広告ターゲティングAIエージェントを支援し、単一GPU販売モデルを超える展開を示した。

国内計算能力の加速突破

申万宏源は、国内推論チップの技術進歩に注目すべきだとし、市場の期待差も指摘している。

技術面では、新世代の国内推論チップは多くの根本的な改良を実現している。FP8/MXFP8/MXFP4などの低精度データフォーマットを新たにサポートし、計算能力はそれぞれ1P、2Pに達した。ベクトル演算能力も大幅に向上し、SIMD/SIMTの両方に対応した新しい同構造設計を採用。通信帯域も前世代比2.5倍の2TB/sに拡大している。

特に注目すべきは、PD(パワーディストリビューション)分離の実現だ。自社開発の異なる規格のHBMを用いて、Prefillや推奨シナリオ向けのPRバージョンと、Decodeや訓練シナリオ向けのDTバージョンを構成している。PRバージョンは低コストHBMを採用し、推論のPrefill段階の投資コストを大きく削減、2026年第1四半期にリリース予定だ。

サプライチェーン面では、国内封止・テスト企業の進展も裏付けとなる。ある主要封止企業の最初の問い合わせ回答によると、その2.5D封止事業の収入は、2022年の0.5億元から2024年には18.2億元に急増しており、国内計算チップ供給能力の継続的な向上とサプライチェーンの国産化推進を示している

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン