AI PICKS
AI用語辞典評価指標

BERTScore (意味的類似度評価)

読み: ばーとすこあいみてきるいじどひょうか

最終更新: 2026-06-30・AI PICKS編集部

定義

BERTScoreとは、BERTの文脈埋め込みでテキスト生成の意味的品質を測る評価指標のこと。表層一致のBLEU/ROUGEより人間の感覚に近く、言い換えや同義表現にも高スコアを出せる。

BERTScore (意味的類似度評価)とは — 詳しく解説

BERTScoreは2019年にZhang et al.が提案した評価指標で、候補文と参照文それぞれのトークンをBERT埋め込みに変換し、コサイン類似度でグリーディーマッチングして精度・再現率・F1を算出する。従来のBLEU/ROUGEが表層的な文字列一致に依存するのに対し、BERTScoreは意味的に等価な言い換えにも適切な高スコアを出せる点が最大の強みだ。 2026年の現場での実運用では、LLMの回答品質評価やRAGシステムの出力検証に広く採用されている。落とし穴として、まず計算コストが高く、GPUなしで数百件バッチ評価すると分単位の遅延が生じる。次にBERTモデルの種類(roberta-large推奨)で結果が大きく変わるため、チーム横断比較には同一モデルの固定が必須だ。また意味的類似度が高くても事実の正確性は担保されないため、ハルシネーション検出として過信は禁物。 AI PICKSでの選び方の相場感として、簡易チェックにはOSSの`bert-score`ライブラリ(無料)で十分。本番LLM評価パイプラインでは、LLM-as-a-judgeと組み合わせてBERTScoreを一次フィルタ、GPT-4oをセカンドオピニオンとする二段構成が2026年のデファクトだ。全件スコアリングより閾値未満サンプルの優先レビューに使うのが現場のベストプラクティス。

BERTScore (意味的類似度評価)の使用例

  • RAGの回答品質をBERTScoreで一括チェック。bert_score.score()にcands/refsを渡しF1を算出、0.85未満を自動フラグして人手レビューキューに送る運用が定番。
  • fine-tuning前後の比較に活用。同一テストセットで両モデルを評価し、F1改善率+3%以上を本番デプロイ判断の基準に設定した事例が増えている。

BERTScore (意味的類似度評価)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・352語以上を体系的に整理しています

辞典トップへ