AI PICKS
AI用語辞典評価指標

LLM-as-a-Judge (LLM評価者)

読み: えるえるえむあずあじゃっじ

最終更新: 2026-06-26・AI PICKS編集部

定義

LLM-as-a-Judgeとは、あるLLMの出力品質を別のLLMが自動採点する評価手法のこと。人手評価の代替として広く使われる。

LLM-as-a-Judge (LLM評価者)とは — 詳しく解説

LLM-as-a-Judgeとは、あるLLMが生成した回答を別のLLM(評価者)がスコアリングする自動評価フレームワークのこと。従来は人間のアノテーターが担っていた「正確性・有用性・安全性」の評価を、Claude OpusやGPT-4oなどの高性能モデルに代行させる手法で、2023年のMT-Bench論文で広く知られるようになった。 2026年の実運用では、評価コストを1件あたり$0.01〜$0.05程度に抑えられる反面、評価LLM自身のバイアス(自社モデル優遇・長文回答偏重・箇条書き好み)が問題として定着している。現場での選び方のポイントは3つ:(1) 評価モデルは生成モデルより1段階強いものを使う(GPT-4oで生成→Claude Opusで評価など)、(2) Chain-of-Thought付きの評価プロンプトでスコアの一貫性を上げる、(3) 月1回は人手評価と相関を取ってドリフトを防ぐ。 AI PICKSが見る相場感では、RAGパイプライン後の品質チェックやファインチューニングの改善確認に最も費用対効果が高く、月10万件評価しても数万円規模に収まる。ハルシネーション検出や多言語品質の一括評価にも有効で、評価基盤を持てない中小規模のAI開発チームにも現場導入が進んでいる。

LLM-as-a-Judge (LLM評価者)の使用例

  • 「以下の回答を1〜5点で採点せよ。正確性・簡潔さ・日本語の自然さを評価基準とし、理由を先に述べてからスコアを出せ」
  • RAGシステムの出力を毎日Claude Opusで自動採点し、平均スコアが閾値を下回ったらSlack通知するパイプライン構築例。

LLM-as-a-Judge (LLM評価者)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ