BLEU (機械翻訳評価)
読み: ぶるー
最終更新: 2026-06-27・AI PICKS編集部
定義
BLEUとは機械翻訳や文章生成の品質を人間の参照訳と比較してスコア化する自動評価指標のこと。
BLEU (機械翻訳評価)とは — 詳しく解説
BLEU(Bilingual Evaluation Understudy)は、モデルが生成したテキストと人間が作成した参照文を比較し、n-gramの一致率をもとに0〜1のスコアを算出する評価指標。2002年にIBMが提案し、機械翻訳の自動評価として業界標準となった。 2026年の実運用では、BLEUは「速くて安い」一方で致命的な落とし穴がある。スコアが高くても意味的に正確とは限らず、言い換えや語順変化に弱い。現場では「BLEU 0.4以上なら及第点」という相場感があるが、LLMによる生成文評価にそのまま適用すると過大評価・過小評価が頻発する。 AI PICKSの観点では、実運用でBLEU単体を使うケースは減っており、BERTScoreやROUGEと組み合わせるか、LLM-as-judgeで補完するのが2026年のトレンド。翻訳・要約タスクの品質管理でコストを抑えたい場面では今でも有効だが、チャットボットや長文生成の評価には不向き。ツール選定時は「何を測りたいか」を先に整理してから指標を選ぶことが現場のセオリーだ。
BLEU (機械翻訳評価)の使用例
- 翻訳モデルAとBのBLEUスコアを比較し、参照訳との一致率が高いモデルBを本番環境に採用した。
- 要約タスクでBLEU単体評価を行ったが意味ズレが多発したため、BERTScoreと併用する方針に切り替えた。
BLEU (機械翻訳評価)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ