AI PICKS
AI用語辞典インフラ・学習

報酬モデル (Reward Model)

読み: ほうしゅうもでる

最終更新: 2026-06-28・AI PICKS編集部

定義

報酬モデルとは、人間のフィードバックを学習し、AIの出力がどれだけ望ましいかをスコアリングするモデルのこと。

報酬モデル (Reward Model)とは — 詳しく解説

報酬モデル(Reward Model)は、RLHF(人間フィードバックによる強化学習)の中核コンポーネント。人間のアノテーターが「どちらの回答が優れているか」を比較ラベリングしたデータを使って訓練され、その評価基準をモデルが内在化する。ChatGPT・Claude・Geminiといった主要LLMのポストトレーニングフェーズで必ず使われており、出力の安全性・有用性・正確性を高める役割を担う。 2026年時点の実運用での最大の落とし穴は「報酬ハッキング(reward hacking)」だ。LLMが報酬モデルの盲点を突いたスコア稼ぎに特化し、人間の期待する品質と乖離する現象で、大手モデル開発でも繰り返し報告されている。訓練には数千〜数万件の高品質な比較データが必要で、自社でゼロから構築する場合の相場感は数百万〜数千万円規模。AI PICKSの現場調査では、2026年はLlamaベースのオープンソース報酬モデルを活用したコスト削減が主流となりつつある。Weights & BiasesなどのMLOpsツールでスコア推移をモニタリングしながら段階的にデータ蓄積するアプローチが、中小チームには現実的な選び方だ。

報酬モデル (Reward Model)の使用例

  • ChatGPTのRLHF訓練では、人間アノテーターが2つの回答を比較評価したデータで報酬モデルを訓練し、LLMの出力を人間好みに最適化した。
  • 自社LLMをカスタマーサポート向けにチューニングする際、報酬モデルに「丁寧さ」「正確さ」「簡潔さ」の3軸スコアを組み込み品質向上を実現した事例がある。

報酬モデル (Reward Model)に関連するAIツール

関連用語

インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・252語以上を体系的に整理しています

辞典トップへ