DPO (直接選好最適化)
読み: でぃーぴーおー(ちょくせつせんこうさいてきか)
最終更新: 2026-06-26・AI PICKS編集部
定義
DPO(直接選好最適化)とは、報酬モデルを使わずに人間の選好データから直接LLMを最適化するファインチューニング手法のこと。
DPO (直接選好最適化)とは — 詳しく解説
DPO(Direct Preference Optimization)は2023年にStanfordが提案した手法で、RLHF(人間フィードバック強化学習)の複雑さを解消する。従来のRLHFでは「報酬モデルの学習→PPOによる強化学習」と2段階が必要だったが、DPOは良い回答と悪い回答の選好ペアから直接ポリシーを最適化する。計算コストが低く実装が単純なため急速に普及した。2026年の実運用では主にinstruction-tuning後段のアライメント層で採用されるのが標準的だ。落とし穴として、選好データの品質が精度を直接左右するため、粗悪なアノテーションを混入させると出力品質が著しく劣化するリスクがある。現場では最低1,000ペア以上の高品質データが推奨されており、収集コストの相場感は1ペアあたり数百〜数千円になることが多い。SimPO・IPO・KTOなど派生手法も登場しており、ベースラインとして比較検討が必要だ。
DPO (直接選好最適化)の使用例
- 社内LLMをDPOでガイドライン準拠にアライメント。RLHFより計算コスト70%削減で同等精度を達成した事例。
- カスタマーサポートLLMで500選好ペアを収集しDPOを適用。敵対的な質問への応答品質が大幅に改善。
DPO (直接選好最適化)に関連するAIツール
関連用語
「インフラ・学習」の他の用語
既存の AI モデルを 自社データで追加学習させて 専門特化させる方法。
データから法則を自動学習させる AI 技術の総称。 ディープラーニングや LLM もここに含まれる。
ニューラルネットワークを多層化した機械学習手法。 LLM / 画像認識 / 音声認識 の基盤技術。
Self-Attention 機構を中核とするニューラルネット構造。 LLM / 画像 / 音声 すべての基盤。
入力系列のどこに注目すべきかを 動的に重み付けする仕組み。 Transformer の中核。
LoRAとは、大規模モデルの重みを凍結したまま低ランク行列ペアを追加挿入することで、全パラメータの1%以下の計算コストで特定ドメインへの適応を実現するファインチューニング手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ