Question 1

GRPO (グループ相対方策最適化)とは何ですか？

Accepted Answer

GRPOとはグループ相対方策最適化のことで、強化学習を使ってLLMをファインチューニングする手法。複数の出力をグループ化し相対的な報酬で学習するため、従来のPPOより計算コストが低い。 GRPOはDeepSeekが2024年に提案した強化学習ベースのLLMファインチューニング手法。従来のPPOではバリューネット（クリティックネットワーク）が必要だったが、GRPOは同一プロンプトから複数の出力をグループ生成し、グループ内の相対報酬をベースラインとすることでバリューネットを不要にした。GPUメモリ消費をPPO比で約40%削減できるのが最大のメリット。

DeepSeek-R1の成功を

Question 2

GRPO (グループ相対方策最適化)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。DeepSeek-R1はGRPOで数学・コーディングの推論を強化。同一問題に8候補を生成し、正解・部分点・形式の3軸報酬で学習する構成が公開されている。 / HuggingFaceのTRLライブラリにGRPOTrainerが実装されており、7BモデルをA100×8で約2時間・100ステップ学習するのが現場でのスタート構成として定着している。詳細な解説はGRPO (グループ相対方策最適化)の詳細ページをご覧ください。

Question 3

GRPO (グループ相対方策最適化)とLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

GRPO (グループ相対方策最適化)とLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。GRPO (グループ相対方策最適化)はGRPOとはグループ相対方策最適化のことで、強化学習を使ってLLMをファインチューニングする手法。複数の出力をグループ化し相対的な報酬で学習するため、従来のPPOより計算コストが低い。詳しくは関連用語の解説ページをご参照ください。

GRPO (グループ相対方策最適化)

定義

GRPO (グループ相対方策最適化)とは — 詳しく解説

GRPO (グループ相対方策最適化)の使用例

GRPO (グループ相対方策最適化)に関連するAIツール

関連用語

「インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか