華為のAIチップ「昇騰」、1.6兆パラメータLLMの全パラメータ後学習を完了

深セン河套学院がハルビン工業大学(深セン)、深セン市ビッグデータ研究院、中国通信機器大手の華為技術(ファーウェイ、広東省深セン市)などのチームと共同で、AI(人工知能)コンピューティングクラスター「昇騰(Ascend)910C」を活用し、1兆6000億パラメータのLLM(大規模言語モデル)「DeepSeek-V4-Pro」の全パラメータ後学習(ポストトレーニング)を完了した。米国による半導体制裁の下で、中国の半導体は基礎的なAI推論から、より複雑なモデル学習段階へと踏み出した。

「全パラメータ後学習」の意味

AIのLLMの核心は推論と学習に分かれる。推論とは、モデルがすでに学習を終えた状態で順序立てて質問に答えることであり、これは中国製チップがこれまで得意としてきた「一方通行の道」だ。一方、学習とはモデルをゼロから育てることで、膨大なAI演算能力(コンピューティングパワー)を必要とするだけでなく、絶え間ない自己反省と調整が求められる。一方通行の道に複雑な「立体交差点」を建設するようなものとされている。

学習はさらに事前学習(基礎固め)と後学習(ルールやスキルの習得)に分かれる。全パラメータ後学習とは、局所的な微調整ではなく、1兆6000億のパラメータすべてを同時に調整することを意味する。さらに厄介なのは、DeepSeek-V4-ProがMoE(Mixture of Experts、混合専門家)アーキテクチャを採用している点だ。推論時には少数の専門家モジュールを呼び出すだけで済むが、学習時にはすべての専門家モジュールが同時に学習し、大量の通信が発生するため、データ交換量は通常のモデルの数十倍に達する。

以前、業界では中国製チップはこのレベルの全パラメータ学習には到底耐えられないと広くみられていた。

不可能を可能にした3つのエンジニアリング

この難関に対し、共同研究チームは3つのエンジニアリングを活用した。

「VRAMパズル」:1兆6000億パラメータはいかなる単一チップにも収まらない。チームは極めて精密な分散配置スキームを設計し、モデルをパズルのように各チップに分割して配置し、データ交換のタイミングを寸分の狂いもなく管理した。

「負荷分散」:MoEアーキテクチャが最も恐れるのは「処理の偏り」だ。チームはスケジューリングアルゴリズムを最適化してタスクを動的に割り当て、チップ間通信の渋滞を根本的に解消し、算力利用率を大幅に向上させた。

「全行程ノーダウン」:大規模モデルの学習で最も恐ろしいのは途中でのクラッシュによる無駄骨だ。今回の学習は1,500ステップ以上を走りきり、全行程でゼロ中断・ゼロエラーを達成した。その背後には、無数の試行錯誤を経て磨き上げられた全工程監視と耐障害システムがある。

最終的に、モデルの演算能力の利用率は30%を突破し、主要な学習演算子の効率は14%向上した。兆パラメータ規模の学習領域において、30%の利用率はすでに十分に優れた産業レベルの水準だ(最高性能の海外チップを使用しても、多くのチームは40%前後にとどまっている)。

Tags: , , , , , ,

関連記事