BERTScore (意味的類似度評価)
読み: ばーとすこあいみてきるいじどひょうか
最終更新: 2026-06-30・AI PICKS編集部
定義
BERTScoreとは、BERTの文脈埋め込みでテキスト生成の意味的品質を測る評価指標のこと。表層一致のBLEU/ROUGEより人間の感覚に近く、言い換えや同義表現にも高スコアを出せる。
BERTScore (意味的類似度評価)とは — 詳しく解説
BERTScoreは2019年にZhang et al.が提案した評価指標で、候補文と参照文それぞれのトークンをBERT埋め込みに変換し、コサイン類似度でグリーディーマッチングして精度・再現率・F1を算出する。従来のBLEU/ROUGEが表層的な文字列一致に依存するのに対し、BERTScoreは意味的に等価な言い換えにも適切な高スコアを出せる点が最大の強みだ。 2026年の現場での実運用では、LLMの回答品質評価やRAGシステムの出力検証に広く採用されている。落とし穴として、まず計算コストが高く、GPUなしで数百件バッチ評価すると分単位の遅延が生じる。次にBERTモデルの種類(roberta-large推奨)で結果が大きく変わるため、チーム横断比較には同一モデルの固定が必須だ。また意味的類似度が高くても事実の正確性は担保されないため、ハルシネーション検出として過信は禁物。 AI PICKSでの選び方の相場感として、簡易チェックにはOSSの`bert-score`ライブラリ(無料)で十分。本番LLM評価パイプラインでは、LLM-as-a-judgeと組み合わせてBERTScoreを一次フィルタ、GPT-4oをセカンドオピニオンとする二段構成が2026年のデファクトだ。全件スコアリングより閾値未満サンプルの優先レビューに使うのが現場のベストプラクティス。
BERTScore (意味的類似度評価)の使用例
- RAGの回答品質をBERTScoreで一括チェック。bert_score.score()にcands/refsを渡しF1を算出、0.85未満を自動フラグして人手レビューキューに送る運用が定番。
- fine-tuning前後の比較に活用。同一テストセットで両モデルを評価し、F1改善率+3%以上を本番デプロイ判断の基準に設定した事例が増えている。
BERTScore (意味的類似度評価)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・352語以上を体系的に整理しています
辞典トップへ