AI PICKS
AI用語辞典インフラ・学習

GRPO (グループ相対方策最適化)

読み: ぐるーぷそうたいほうさくさいてきか

最終更新: 2026-06-27・AI PICKS編集部

定義

GRPOとはグループ相対方策最適化のことで、強化学習を使ってLLMをファインチューニングする手法。複数の出力をグループ化し相対的な報酬で学習するため、従来のPPOより計算コストが低い。

GRPO (グループ相対方策最適化)とは — 詳しく解説

GRPOはDeepSeekが2024年に提案した強化学習ベースのLLMファインチューニング手法。従来のPPOではバリューネット(クリティックネットワーク)が必要だったが、GRPOは同一プロンプトから複数の出力をグループ生成し、グループ内の相対報酬をベースラインとすることでバリューネットを不要にした。GPUメモリ消費をPPO比で約40%削減できるのが最大のメリット。 DeepSeek-R1の成功を受け、2026年時点ではQwen・Llama系の推論特化ファインチューニングでも事実上の標準手法になりつつある。AI PICKSの調査によるとA100×8構成での7BモデルGRPO学習の相場感は月30〜60万円(クラウドGPU)で、中小チームでも導入が現実的になってきた。 実運用での現場の落とし穴は主に2点。①グループサイズが小さいと報酬バリアンスが高まり学習が不安定になる(8〜16サンプルが推奨)。②報酬関数の設計が肝で、正確性・形式・安全性の多目的バランスを誤ると「形式だけ整った薄い回答」を量産する事例が報告されている。2026年現在、HuggingFaceのTRLライブラリに実装されたGRPOTrainerが現場標準ツールとして定着しつつある。

GRPO (グループ相対方策最適化)の使用例

  • DeepSeek-R1はGRPOで数学・コーディングの推論を強化。同一問題に8候補を生成し、正解・部分点・形式の3軸報酬で学習する構成が公開されている。
  • HuggingFaceのTRLライブラリにGRPOTrainerが実装されており、7BモデルをA100×8で約2時間・100ステップ学習するのが現場でのスタート構成として定着している。

GRPO (グループ相対方策最適化)に関連するAIツール

関連用語

インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・202語以上を体系的に整理しています

辞典トップへ