DeepSeek、英科学誌Natureで「蒸留」論争に初めて回答

中国のAI(人工知能)開発企業、杭州深度求索人工知能基礎技術研究(DeepSeek、ディープシーク、浙江省杭州市)のAIチームの梁文鋒氏らが、オープンソースモデル「DeepSeek-R1」に関する研究成果を17日発行の英科学誌『Nature』最新号に発表し、同誌の表紙を飾った。

論文では、大規模言語モデル(LLM)の推論能力が純粋な強化学習によって大幅に向上することが示され、人手によるデータラベルへの依存を減らせると指摘。数学問題の解法、プログラミングコンテスト、大学院レベルのSTEM課題において、従来の方法より優れた性能を発揮したという。

また、かねて議論を呼んでいた「蒸留」問題にも初めて回答。DeepSeek側は、R1は米OpenAIの推論例を模倣して学習したものではなく、他の多くの大規模言語モデルと同様、インターネット上のデータでトレーニングされたため、既存のAI生成コンテンツを一部吸収したに過ぎないと説明した。

「29万ドルの奇跡」

AI研究の世界では、「アルゴリズムよりコストが参入障壁」という厳しい現実が存在する。OpenAIのAIモデル「GPT-4」のトレーニングには1億米ドル(約147億円)以上が費やされたとされ、米Google(グーグル)、Meta(メタ)、生成AIの「Claude」を展開するAnthropicなども数千万米ドル規模の投資を行ってきた。

しかしDeepSeekはこの常識を覆したことで世界に衝撃を与えた。論文付録によれば、R1の推論トレーニングにかかったコストはわずか29万4000米ドル。基盤モデルの学習を含めても約600万ドルで、海外大手の水準を大きく下回った。

さらに注目すべきは方法論だ。研究チームは純粋な強化学習(RL)フレームワークを採用し、独自の「組相対方策最適化(GRPO)」を導入。モデルに与えた報酬は“最終解答の正誤”のみで、人間の推論過程を模倣させることはしなかった。

驚くべきことに、このシンプルな方式によってモデルは自発的に「内省(reflection)」「自己検証」「長い推論連鎖」といった高度な思考様式を獲得。数学試験では、米国数学招待試験(AIME 2024)での正答率が15.6%から77.9%に跳ね上がり、さらに自己整合性(self-consistency decoding)を用いると86.7%に達し、人間の平均を超えた。

『Nature』は「人間の推論例なしに、強化学習のみで複雑な思考様式を自律的に形成できることを示した」と評価している。

梁文鋒の十年越しの挑戦

梁文鋒氏は1985年、広東省湛江市に生まれた。浙江大学で電子情報工学を専攻し、その後修士課程では機械視覚を研究。学生時代から機械学習を金融市場に応用し、全自動の量的取引を模索した。起業の誘いもあったが、「AIが世界を変える」という信念を貫き、独自の道を選んだ。

卒業後は量化取引企業を創業し、十年以上かけて事業を発展させた。そして2023年、汎用人工知能の開発に舵を切り、DeepSeekを設立。低コストかつ高性能なモデルを次々と公開し、国内外の市場に衝撃を与えた。

彼のチーム作りの哲学も独特だ。多くの中核メンバーは新卒や経験1〜2年の若手で占められ、「中国でトップ50人を見つけるのではなく、自分たちで育てる」という理念を貫く。この方針こそが、低コストで高い推論力を実現する原動力となった。

推論革命の幕開け

今回の成果は、単なる高性能モデルの誕生にとどまらない。人手データに依存せず、持続可能なAI進化の新しい方法論を世界に示した点に本質的な価値がある。実際にR1の手法を応用して既存モデルを改善しようとする試みは世界で広がりつつある。

AI競争はこれまで「データと算力の軍拡競争」とされてきたが、今後は「アルゴリズムと知恵の競争」へ移行する可能性が高い。DeepSeek-R1は、その新たな戦いの号砲を鳴らしたと言えるだろう。

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

Tags: , , , , , ,

関連記事