Question 1

BLEU (機械翻訳評価)とは何ですか？

Accepted Answer

BLEUとは機械翻訳や文章生成の品質を人間の参照訳と比較してスコア化する自動評価指標のこと。 BLEU（Bilingual Evaluation Understudy）は、モデルが生成したテキストと人間が作成した参照文を比較し、n-gramの一致率をもとに0〜1のスコアを算出する評価指標。2002年にIBMが提案し、機械翻訳の自動評価として業界標準となった。

2026年の実運用では、BLEUは「速くて安い」一方で致命的な落とし穴がある。スコアが高くても意味的に正確とは限らず、言い換えや語

Question 2

BLEU (機械翻訳評価)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。翻訳モデルAとBのBLEUスコアを比較し、参照訳との一致率が高いモデルBを本番環境に採用した。 / 要約タスクでBLEU単体評価を行ったが意味ズレが多発したため、BERTScoreと併用する方針に切り替えた。詳細な解説はBLEU (機械翻訳評価)の詳細ページをご覧ください。

Question 3

BLEU (機械翻訳評価)とLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

BLEU (機械翻訳評価)とLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。BLEU (機械翻訳評価)はBLEUとは機械翻訳や文章生成の品質を人間の参照訳と比較してスコア化する自動評価指標のこと。詳しくは関連用語の解説ページをご参照ください。

BLEU (機械翻訳評価)

定義

BLEU (機械翻訳評価)とは — 詳しく解説

BLEU (機械翻訳評価)の使用例

BLEU (機械翻訳評価)に関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか