DeepSeek、北京大学と共同でLLMの推論速度を60〜85%向上

界面新聞の報道によると、中国のAI(人工知能)開発企業、杭州深度求索人工知能基礎技術研究(DeepSeek、ディープシーク、浙江省杭州市)チームは27日、北京大学と共同で「DSpark」と題する研究論文(投機的デコーディング分野)を発表し、大規模言語モデル(LLM)の推論を高速化する新手法を提案した。

論文によると、既存の並列「ドラフト生成」方式はより長いトークンを一度に生成できる一方、トークン間の関連性が不十分なため、拒否率の上昇と検証計算資源の無駄遣いを招きやすいという課題がある。そこでDSparkは半自己回帰構造を導入し、並列生成のバックボーンに軽量な逐次モジュールを追加することで、トークン間の依存関係を強化し、ドラフトの品質を向上させる。

また、DSparkは「信頼度に基づく動的検証メカニズム」を提案している。これは各リクエストの成功確率とシステム負荷に応じて検証長を適応的に調整し、無効な計算コストを削減するものである。オフラインテストでは、この手法により受け入れ可能な生成長が大幅に向上した。DeepSeek-V4のオンラインシステムでは、ベースラインモデルと比較して推論速度が約60〜85%向上し、高並列時のスループット損失も効果的に低減された。

論文と同時に、モデルのチェックポイントとトレーニングフレームワーク「DeepSpec」もオープンソースとして公開され、コミュニティによるさらなる研究の推進を目指している。

関連記事