GRPO (グループ相対方策最適化)
読み: ぐるーぷそうたいほうさくさいてきか
最終更新: 2026-06-27・AI PICKS編集部
定義
GRPOとはグループ相対方策最適化のことで、強化学習を使ってLLMをファインチューニングする手法。複数の出力をグループ化し相対的な報酬で学習するため、従来のPPOより計算コストが低い。
GRPO (グループ相対方策最適化)とは — 詳しく解説
GRPOはDeepSeekが2024年に提案した強化学習ベースのLLMファインチューニング手法。従来のPPOではバリューネット(クリティックネットワーク)が必要だったが、GRPOは同一プロンプトから複数の出力をグループ生成し、グループ内の相対報酬をベースラインとすることでバリューネットを不要にした。GPUメモリ消費をPPO比で約40%削減できるのが最大のメリット。 DeepSeek-R1の成功を受け、2026年時点ではQwen・Llama系の推論特化ファインチューニングでも事実上の標準手法になりつつある。AI PICKSの調査によるとA100×8構成での7BモデルGRPO学習の相場感は月30〜60万円(クラウドGPU)で、中小チームでも導入が現実的になってきた。 実運用での現場の落とし穴は主に2点。①グループサイズが小さいと報酬バリアンスが高まり学習が不安定になる(8〜16サンプルが推奨)。②報酬関数の設計が肝で、正確性・形式・安全性の多目的バランスを誤ると「形式だけ整った薄い回答」を量産する事例が報告されている。2026年現在、HuggingFaceのTRLライブラリに実装されたGRPOTrainerが現場標準ツールとして定着しつつある。
GRPO (グループ相対方策最適化)の使用例
- DeepSeek-R1はGRPOで数学・コーディングの推論を強化。同一問題に8候補を生成し、正解・部分点・形式の3軸報酬で学習する構成が公開されている。
- HuggingFaceのTRLライブラリにGRPOTrainerが実装されており、7BモデルをA100×8で約2時間・100ステップ学習するのが現場でのスタート構成として定着している。
GRPO (グループ相対方策最適化)に関連するAIツール
関連用語
「インフラ・学習」の他の用語
既存の AI モデルを 自社データで追加学習させて 専門特化させる方法。
データから法則を自動学習させる AI 技術の総称。 ディープラーニングや LLM もここに含まれる。
ニューラルネットワークを多層化した機械学習手法。 LLM / 画像認識 / 音声認識 の基盤技術。
Self-Attention 機構を中核とするニューラルネット構造。 LLM / 画像 / 音声 すべての基盤。
入力系列のどこに注目すべきかを 動的に重み付けする仕組み。 Transformer の中核。
LoRAとは、大規模モデルの重みを凍結したまま低ランク行列ペアを追加挿入することで、全パラメータの1%以下の計算コストで特定ドメインへの適応を実現するファインチューニング手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ