ROUGE (要約評価指標)
読み: るーじゅ
最終更新: 2026-06-29・AI PICKS編集部
定義
ROUGEとはLLMや機械翻訳が生成したテキストを参照テキストとのn-gram一致率で自動採点する要約評価指標のこと。
ROUGE (要約評価指標)とは — 詳しく解説
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、生成テキストと人手作成の参照テキストの単語・フレーズ重複度を計算して品質を数値化するNLP評価指標群。ROUGE-1(単語単位)・ROUGE-2(バイグラム)・ROUGE-L(最長共通部分列)の3種が実務でよく使われる。 2026年の実運用における最大の落とし穴は「スコアが高くても人間評価と乖離する」点。LLMが参照文と異なる言い回しで正確に要約した場合でもスコアが低くなる同義語問題が根強く、BERTScoreやLLM-as-Judgeとの併用が現場では標準化しつつある。AI PICKS編集部の検証でも、RAGシステムの回答評価でROUGE単体では実際の品質の80%程度しか捉えられなかった事例がある。 相場感として、計算自体は無料ライブラリ(rouge-score等)で済むが、信頼できる参照要約の人手作成が1件あたり500〜2,000円かかり、評価セット構築費が実質コストの本体。2026年時点では小規模チームはROUGE-Lのみで高速PoC、本番品質管理はLLM-as-Judge混合が費用対効果の高い選び方。
ROUGE (要約評価指標)の使用例
- 要約モデル評価: ROUGE-Lが0.45未満の出力をLLM-as-Judgeで再評価し、品質閾値を二段階で管理する運用が増えている。
- RAG品質の週次モニタリング: 参照QA100件でROUGE-2を計測し、スコア低下時にリトリーバー設定を見直すトリガーにする。
ROUGE (要約評価指標)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・302語以上を体系的に整理しています
辞典トップへ