華為のAIチップ「昇騰」、DeepSeek-V4の推論を担う

中国通信機器大手の華為技術(ファーウェイ、広東省深セン市)の自社開発プロセッサ「昇騰(Ascend)950 PR」がまもなく、中国のAI(人工知能)企業DeepSeek(杭州深度求索)が開発中の次世代大規模言語モデル(LLM)「DeepSeek-V4」の投入も間近に迫っている。国産チップによる国産LLMの推論という中国のAIエコシステムが構築されつつある。

DeepSeek-V4の推論は「昇騰950 PR」上で動作し、異種混合コンピューティングアーキテクチャのCANN NextはCUDAとの互換性を持つ。ただし、V4のトレーニングには引き続き米半導体大手のNVIDIA(エヌビディア)の先進GPU(画像処理半導体)が使用される。

華為は昨年、昇騰チップのロードマップも公表しており、今年末にはエヌビディアの「H200」に匹敵するトレーニングと深層学習シーン向けの昇騰950 DTを投入する予定だ。

DeepSeekのオープンソース版をベースにアプリケーションを開発する中国の開発者は誰もが演算能力需要を国産ハードウェアへと向けることになり、昇騰・海光・寒武紀・摩爾線程・燧原などの企業にとって計り知れない価値を持つ。

昨年初頭にDeepSeek-R1が投入された後、主にH20システム上で展開された。今年のAIエージェントアプリケーションの爆発的な普及は、GPUの供給不足とサービス価格の上昇という市場環境の中で、H200を含めても中国本土の算力サプライヤーに前例のないチャンスの窓を開いた。

DeepSeekはこれまでエヌビディアと緊密に連携し、毎年GTCカンファレンスに代表者を派遣して登壇してきた。しかし今年、DeepSeekはエヌビディアがV4のカーネルに事前アクセスする権限を拒否した。GTCで登壇したのは、月之暗面(Moonshot AI)の創業者・楊植麟氏だった。

業界ではDeepSeek-V4の発表時期を4月と予測している。上表が示すように、V4とPRの発表は歩調が合っているように見える。テクノロジーメディアのThe Informationは5人の情報源を確認したとして、4月中旬がV4発表の時間的な窓口となる可能性があり、昇騰950 PR上で動作すると伝えた。

情報によれば「V4の発表に向けて、アリババグループ・バイトダンス・テンセントホールディングスを含む中国のテクノロジー大手は、ファーウェイに対して間もなく発売される同チップを数十万個単位で発注済みだ。各社はクラウドサービスを通じてDeepSeekの新モデルを販売し、自社のAIアプリケーションに統合する計画だ」という。

昇騰950 PRのミッションはH20を超えることだ。ファーウェイの中国パートナーカンファレンスにおいて、3月20日に昇騰コンピューティング事業の社長・張迪煊氏がPRの性能情報の一部を明らかにした。シングルカードの演算能力は業界標準(H20)の2.8倍以上を達成し、現在国内で唯一mxFP4低精度フォーマットをサポートする推論製品だという。オンチップメモリは最大112GBまで拡張され、業界水準の1.1倍以上に達する。

950 PRには華為が初めて自主開発した高帯域幅メモリ「HiBL 1.0」が搭載されており、容量112GB・帯域幅1.4TB/sを実現した。外部サプライチェーンへの依存から脱却し、生産能力のボトルネックを打破することで、大規模な納入に向けた保証が整った。

CANN NextのCUDA互換については、新たにSIMTプログラミングモデルが追加され、エヌビディアのコード環境に直接対応できるようになり、移行のハードルが下がった。CANN NextはCUDAをプログラミング標準として位置づけながら、昇騰チップの特性に合わせた専用最適化も施しており、CUDAインターフェースをほぼ直接代替するソリューションを構築し、ソフトウェアとハードウェアの協調設計によるスケーラビリティを実現した。

現在、昇騰950 PRに代表される中国のAIトレーニング・推論チップの水準はH100とH200の間にあり、主なボトルネックは生産能力にある。950 PRは依然として推論シーン寄りの製品であり、今年末に発表が予定されている950 DTはトレーニングと深層学習シーンに向けたものとなる。

DeepSeekが1〜2年以内に推論とトレーニングの両方を昇騰上で動作させ、コンパイラ・演算子・通信ライブラリ・分散トレーニング・推論フレームワークがすべて安定した状態を実現すれば、そのコアモデルの生産フローはCUDAからほぼ脱却できることになる。

Tags: , , , , , , , , , ,

関連記事