AI PICKS
AI用語辞典評価指標

パープレキシティ (困惑度)

読み: ぱーぷれきしてぃ(こんわくど)

最終更新: 2026-06-30・AI PICKS編集部

定義

パープレキシティとは、言語モデルがテキストをどれほど的確に予測できるかを数値で示す評価指標のこと。値が低いほど予測精度が高く、LLMの開発・比較・ファインチューニング評価で広く用いられる。

パープレキシティ (困惑度)とは — 詳しく解説

パープレキシティ(Perplexity、PPL)は、言語モデルの評価に用いられる代表的な指標で、モデルが与えられたテキストをどれほど的確に予測できるかを数値化したもの。テキスト全体の確率の幾何平均の逆数として定義され、値が低いほど高性能とされる。LLM開発では訓練損失の代替指標として広く使われ、モデルサイズやデータ量との相関を把握する際にも有用だ。 2026年の実運用現場での注意点は3つある。①データリーク:テストデータが学習データに含まれるとPPLが不当に低く出る汚染問題が深刻化している。②ハルシネーション非検出:PPLは統計的予測精度のみを測るため、事実誤認の有無を全く反映しない。③タスク汎化不足:低PPLでも特定タスクの出力品質が高いとは限らない。 現場での選び方として、パープレキシティはファインチューニングの進捗確認やデータ品質の粗チェックに限定し、最終評価にはBLEU/ROUGE・人間評価・LLM-as-Judgeを組み合わせるのが2026年の相場感となっている。

パープレキシティ (困惑度)の使用例

  • ファインチューニング後にPPLが30%低下した事例では回答満足度が向上したが、ハルシネーション率は改善しなかった。
  • 「PPL=15のモデルとPPL=25のモデル、実務ではどちらが適切か」をプロンプトでタスク特性から判断させる活用例。

パープレキシティ (困惑度)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・352語以上を体系的に整理しています

辞典トップへ