AI PICKS
AI用語辞典評価指標

ROUGE (要約評価指標)

読み: るーじゅ

最終更新: 2026-06-29・AI PICKS編集部

定義

ROUGEとはLLMや機械翻訳が生成したテキストを参照テキストとのn-gram一致率で自動採点する要約評価指標のこと。

ROUGE (要約評価指標)とは — 詳しく解説

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、生成テキストと人手作成の参照テキストの単語・フレーズ重複度を計算して品質を数値化するNLP評価指標群。ROUGE-1(単語単位)・ROUGE-2(バイグラム)・ROUGE-L(最長共通部分列)の3種が実務でよく使われる。 2026年の実運用における最大の落とし穴は「スコアが高くても人間評価と乖離する」点。LLMが参照文と異なる言い回しで正確に要約した場合でもスコアが低くなる同義語問題が根強く、BERTScoreやLLM-as-Judgeとの併用が現場では標準化しつつある。AI PICKS編集部の検証でも、RAGシステムの回答評価でROUGE単体では実際の品質の80%程度しか捉えられなかった事例がある。 相場感として、計算自体は無料ライブラリ(rouge-score等)で済むが、信頼できる参照要約の人手作成が1件あたり500〜2,000円かかり、評価セット構築費が実質コストの本体。2026年時点では小規模チームはROUGE-Lのみで高速PoC、本番品質管理はLLM-as-Judge混合が費用対効果の高い選び方。

ROUGE (要約評価指標)の使用例

  • 要約モデル評価: ROUGE-Lが0.45未満の出力をLLM-as-Judgeで再評価し、品質閾値を二段階で管理する運用が増えている。
  • RAG品質の週次モニタリング: 参照QA100件でROUGE-2を計測し、スコア低下時にリトリーバー設定を見直すトリガーにする。

ROUGE (要約評価指標)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・302語以上を体系的に整理しています

辞典トップへ