AI PICKS
AI用語辞典評価指標

BLEU (機械翻訳評価)

読み: ぶるー

最終更新: 2026-06-27・AI PICKS編集部

定義

BLEUとは機械翻訳や文章生成の品質を人間の参照訳と比較してスコア化する自動評価指標のこと。

BLEU (機械翻訳評価)とは — 詳しく解説

BLEU(Bilingual Evaluation Understudy)は、モデルが生成したテキストと人間が作成した参照文を比較し、n-gramの一致率をもとに0〜1のスコアを算出する評価指標。2002年にIBMが提案し、機械翻訳の自動評価として業界標準となった。 2026年の実運用では、BLEUは「速くて安い」一方で致命的な落とし穴がある。スコアが高くても意味的に正確とは限らず、言い換えや語順変化に弱い。現場では「BLEU 0.4以上なら及第点」という相場感があるが、LLMによる生成文評価にそのまま適用すると過大評価・過小評価が頻発する。 AI PICKSの観点では、実運用でBLEU単体を使うケースは減っており、BERTScoreやROUGEと組み合わせるか、LLM-as-judgeで補完するのが2026年のトレンド。翻訳・要約タスクの品質管理でコストを抑えたい場面では今でも有効だが、チャットボットや長文生成の評価には不向き。ツール選定時は「何を測りたいか」を先に整理してから指標を選ぶことが現場のセオリーだ。

BLEU (機械翻訳評価)の使用例

  • 翻訳モデルAとBのBLEUスコアを比較し、参照訳との一致率が高いモデルBを本番環境に採用した。
  • 要約タスクでBLEU単体評価を行ったが意味ズレが多発したため、BERTScoreと併用する方針に切り替えた。

BLEU (機械翻訳評価)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・202語以上を体系的に整理しています

辞典トップへ