AI PICKS
AI用語辞典インフラ・学習

DPO (直接選好最適化)

読み: でぃーぴーおー(ちょくせつせんこうさいてきか)

最終更新: 2026-06-26・AI PICKS編集部

定義

DPO(直接選好最適化)とは、報酬モデルを使わずに人間の選好データから直接LLMを最適化するファインチューニング手法のこと。

DPO (直接選好最適化)とは — 詳しく解説

DPO(Direct Preference Optimization)は2023年にStanfordが提案した手法で、RLHF(人間フィードバック強化学習)の複雑さを解消する。従来のRLHFでは「報酬モデルの学習→PPOによる強化学習」と2段階が必要だったが、DPOは良い回答と悪い回答の選好ペアから直接ポリシーを最適化する。計算コストが低く実装が単純なため急速に普及した。2026年の実運用では主にinstruction-tuning後段のアライメント層で採用されるのが標準的だ。落とし穴として、選好データの品質が精度を直接左右するため、粗悪なアノテーションを混入させると出力品質が著しく劣化するリスクがある。現場では最低1,000ペア以上の高品質データが推奨されており、収集コストの相場感は1ペアあたり数百〜数千円になることが多い。SimPO・IPO・KTOなど派生手法も登場しており、ベースラインとして比較検討が必要だ。

DPO (直接選好最適化)の使用例

  • 社内LLMをDPOでガイドライン準拠にアライメント。RLHFより計算コスト70%削減で同等精度を達成した事例。
  • カスタマーサポートLLMで500選好ペアを収集しDPOを適用。敵対的な質問への応答品質が大幅に改善。

DPO (直接選好最適化)に関連するAIツール

関連用語

インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ