パープレキシティ (困惑度)
読み: ぱーぷれきしてぃ(こんわくど)
最終更新: 2026-06-30・AI PICKS編集部
定義
パープレキシティとは、言語モデルがテキストをどれほど的確に予測できるかを数値で示す評価指標のこと。値が低いほど予測精度が高く、LLMの開発・比較・ファインチューニング評価で広く用いられる。
パープレキシティ (困惑度)とは — 詳しく解説
パープレキシティ(Perplexity、PPL)は、言語モデルの評価に用いられる代表的な指標で、モデルが与えられたテキストをどれほど的確に予測できるかを数値化したもの。テキスト全体の確率の幾何平均の逆数として定義され、値が低いほど高性能とされる。LLM開発では訓練損失の代替指標として広く使われ、モデルサイズやデータ量との相関を把握する際にも有用だ。 2026年の実運用現場での注意点は3つある。①データリーク:テストデータが学習データに含まれるとPPLが不当に低く出る汚染問題が深刻化している。②ハルシネーション非検出:PPLは統計的予測精度のみを測るため、事実誤認の有無を全く反映しない。③タスク汎化不足:低PPLでも特定タスクの出力品質が高いとは限らない。 現場での選び方として、パープレキシティはファインチューニングの進捗確認やデータ品質の粗チェックに限定し、最終評価にはBLEU/ROUGE・人間評価・LLM-as-Judgeを組み合わせるのが2026年の相場感となっている。
パープレキシティ (困惑度)の使用例
- ファインチューニング後にPPLが30%低下した事例では回答満足度が向上したが、ハルシネーション率は改善しなかった。
- 「PPL=15のモデルとPPL=25のモデル、実務ではどちらが適切か」をプロンプトでタスク特性から判断させる活用例。
パープレキシティ (困惑度)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・352語以上を体系的に整理しています
辞典トップへ