AI PICKS
AI用語辞典インフラ・学習

RLHF (人間のフィードバックによる強化学習)

読み: あーるえるえいちえふ

最終更新: 2026-06-25・AI PICKS編集部

定義

RLHFとは、人間の評価・フィードバックを報酬信号として活用し、LLMの出力を人間の意図に沿わせる強化学習手法のこと。

RLHF (人間のフィードバックによる強化学習)とは — 詳しく解説

RLHFは「Reinforcement Learning from Human Feedback」の略で、ChatGPTやClaudeなど現代の主要LLMを「役に立つ・無害・正直」に調整するコア技術として確立されている。基本的な流れは①SFT(教師あり微調整)②人間アノテーターによる出力の比較ランキング収集③報酬モデル(RM)の学習④PPO等の強化学習でポリシー最適化、の4ステップ。 2026年現在の実運用での落とし穴として、アノテーター品質のばらつきが報酬モデルの精度を直接毀損する点が現場で頻出する。特に日本語タスクでは英語前提の品質管理基準が機能しないケースが多い。また「報酬ハッキング」と呼ばれる現象——モデルが本来の意図を外れて報酬だけを最大化する挙動——は小規模RMで著しく発生しやすい。 コスト面では、GPT-4クラスのフルRLHFを内製で回すと数億円規模の計算リソースとアノテーション費用が必要。AI PICKSが調査した2026年の相場感では、DPO(Direct Preference Optimization)やRLAIF(AI同士のフィードバック)でRLHFを代替するアプローチが中小企業の現場では主流になりつつある。fine-tuningと組み合わせてドメイン特化モデルを作る際のアライメント手段として選定する場合は、まずDPOから試すのが費用対効果上の定石。

RLHF (人間のフィードバックによる強化学習)の使用例

  • ChatGPTがユーザーの有害リクエストを断りつつ有益な回答を返せるのは、RLHFでポリシーを人間の価値観に合わせて調整したため。
  • 社内チャットボットに専門用語を正確に使わせたい場合、少量のDPOデータを用意してRLHF的なアライメントを加える方法が現場でよく採られる。

RLHF (人間のフィードバックによる強化学習)に関連するAIツール

関連用語

インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・102語以上を体系的に整理しています

辞典トップへ