NVIDIAの対中「コンプライアンス・バレエ」戦略、中国製演算力の進化加速へ

米半導体大手のNVIDIA(エヌビディア)のJen-Hsun Huang(ジェンスン・ファン)最高経営責任者(CEO)は16日、北京で開催された第3回「チェーン博覧会」の開幕式で、「中国のオープンソースAIは世界の進歩を促す触媒であり、あらゆる国と産業がAI変革に参画できる機会を与える」と語った。直前には、中国中央テレビ(CCTV)のインタビューで、中国向けに新たな特別仕様GPU「RTX PRO」を投入し、AIチップ「H20」が米政府から対中輸出許可を得たことも明らかにしている。

H20は、米政府の対中輸出規制に準拠する目的で開発されたA100/H100の代替品で、FP64/FP32といった主要演算性能は大幅に制限されている。しかし、HBM3(高帯域メモリー)とNVLinkインターコネクトを備え、特定のAI用途では一定の性能を確保している。

今年4月、一時的に米政府はH20の輸出ライセンス発行を停止し、NVIDIAは100億米ドル(約1兆4770億円)を超える潜在損失リスクに直面した。2024年1月までの会計年度において、中国市場はNVIDIAの売上の13%にあたる170億米ドルを占めており、成長の屋台骨を担っている。

その後、H20の再申請が通り、近く出荷再開が見込まれている。同時にファン氏は中国市場向けに完全準拠の「RTX PRO 6000D Blackwell」を発表。半導体受託生産(ファウンドリー)世界大手の台湾積体電路製造(TSMC、台積電)の4Nプロセスで製造され、GDDR7メモリーを搭載、最大1.1TB/sのメモリー帯域を持つ。このGPU(画像処理半導体)は、インテリジェントファクトリーや物流向けのデジタルツイン型AIアプリケーションに最適とされている。

一方で、輸出規制は依然として流動的で、新たな「B30」チップが9月にも登場予定だが、演算能力のさらなる制限が予想される。FP16演算性能は約80TFLOPS、FP8は200TFLOPS程度、NVLink相当の帯域も1.5TB/s程度に留まるとされ、AIモデルの訓練には適さないとの見方もある。

NVIDIAは現在、H20(訓練・推論用)、RTX PRO(軽量AI・可視化)、B30(推論専用)といった階層的な製品構成で中国市場に対応。「機能切り分け」により米規制に準拠しつつ、異なる需要に対応して13%の世界売上を堅持する狙いだ。

加えて、NVIDIAはCUDAツールチェーンとNGC(NVIDIA GPU Cloud)のプリトレーニングモデル群により、ソフトウェア面での強固な囲い込みを実現。PyTorchにおいても10万件を超えるCUDA最適化モデルが存在し、開発者が他社製品へ移行するには数百万行単位のコード変更が必要となる。また、中国メーカー(浪潮、聯想など)と連携し、ハード単体でなく「チップ+サーバー+サービス」のパッケージで展開することで、政策リスクの緩和と市場依存度の強化も図っている。

演算力競争はエコシステム戦争へ

AI(人口知能)開発競争の本質は、単なるチップ性能ではなく、エコシステムの優劣にある。米国政府も、中国の巨額なAI投資によって国産チップの進化が加速していることを認識し始めている。

例えば、華為技術(ファーウェイ)の「昇騰910B」は既に複数の智算センターに採用されており、中国のAI(人工知能)チップ開発大手の中科寒武紀科技(カンブリコン、北京市)、上海壁仞科技(BIRENTECH、上海市)といった企業も開発スピードを上げている。H20はNVLink 4による高速接続とHBM3の大容量メモリにより、FP64/FP32の性能制限を補っているが、CUDAの存在こそが最大の防御壁となっている。

一方、米半導体大手、Advanced Micro Devices(AMD、アドバンスト・マイクロ・デバイセズ)のMI300Xは192GB HBM3というスペックで大規模モデル処理に強みを持つが、ROCmエコシステムが発展途上であり、消費電力も高い。中国勢では、華為の昇騰910BがFP32/FP16性能に優れ、CANNとMindSporeを中心とする独自スタックで統合的な展開が可能。ただし製造技術の制約からHBM帯域に課題がある。

寒武紀のMLU370-X8は多ダイ構成とHBM2で推論処理に強みを持ち、GPU(画像処理半導体)開発の摩爾線程智能科技(北京)(Moore Threads、北京市)や百度(バイドゥ)の昆侖芯K200は中堅向け市場に対応。性能ではトップ勢に届かないものの、特定用途での価格・導入メリットがあり、エコシステムも徐々に拡大している。

ソフトウェアエコシステムの突破が最大の課題

中国のAI産業が真に世界と競争するためには、チップ単体の性能以上に、開発ツール・フレームワークなどのソフトウェアエコシステムでの自立が必要だ。

第一の課題は「互換性」。中国製チップがFP16でH20を上回る性能を達成しても、多くのAIフレームワークはCUDAを前提に設計されており、使い勝手に問題が残る。このギャップを埋めるために、「一度開発すれば多アーキテクチャへ展開できる」互換層の構築が鍵となる。中科院計算所が開発した異種計算ミドルウェアは、既に昇騰・寒武紀・AMDなど8つのアーキテクチャに対応している。

第二に必要なのは、開発者ネットワークの形成。CUDAの強みは、200万人規模のグローバル開発者コミュニティに支えられている点にあり、国内エコシステムもそれに匹敵する開発者誘導・支援体制を構築する必要がある。

第三に、米国が「技術依存戦略」を進めるなか、表面的な互換性ではなく、命令セットからアプリケーションまでの全レイヤーで自律性を確保する「本質的な国産化」が求められている。

演算力ソフトウェアの主導権争いは、見えざる「標準制定権」争奪戦でもある。国産チップメーカーが「CUDAにどう合わせるか」ではなく、「いかに世界の開発者を自社エコシステムに引き込むか」を模索し始めたとき、初めて中国演算力産業は真のブレイクスルーを迎えるだろう。

それは10年、あるいはそれ以上の時間を要するかもしれない。しかし、1行ごとの自主コードの積み重ねこそが、中国をグローバル技術バリューチェーンの頂点へ押し上げる階段となる。

Tags: , , , , , , , , , , , ,

関連記事