RAGAS (RAG評価フレームワーク)
読み: らがす
最終更新: 2026-06-28・AI PICKS編集部
定義
RAGASとはRAGシステムの回答品質を自動評価するオープンソースフレームワークのこと。忠実性・回答適合性・文脈精度・文脈網羅性の4指標をLLMジャッジで採点し、チューニングの効果を定量化する。
RAGAS (RAG評価フレームワーク)とは — 詳しく解説
RAGASはExploding Gradients社が開発した、RAGパイプライン全体を定量評価するフレームワーク。コアとなる4指標はFaithfulness(回答がコンテキストに忠実か)、Answer Relevancy(質問への適合性)、Context Precision(検索結果の精度)、Context Recall(必要情報の網羅性)で、いずれもLLMをジャッジモデルとして利用する。 2026年の実運用で見落とされがちな落とし穴は「評価コスト」と「ジャッジモデルバイアス」の二点。GPT-4クラスで100件評価すると$2〜5が相場感で、規模が増えるとすぐ試算が狂う。コスト削減でGemini FlashやClaude Haikuに切り替える現場も多いが、ジャッジモデルの精度低下でスコアの信頼性が落ちる副作用がある。 現場での選び方として、全件評価ではなくサンプリング(10〜20%)が主流。FaithfulnessとAnswer Relevancyの2指標だけで粗くフィルタし、スコアの低い回答のみ詳細評価するコスト最適化パターンが有効。ゴールドセット(評価用QAセット)の品質が最終スコアを左右するため、ドメイン専門家によるアノテーションが不可欠。Weights & Biases等のMLOpsツールと統合して経時的なスコア劣化を追跡するのがAI PICKS推奨の運用パターン。
RAGAS (RAG評価フレームワーク)の使用例
- 本番リリース前にRAGASでFaithfulnessスコアを計測し、0.75未満の回答パターンを特定してチャンク分割戦略を変更、スコアを0.91まで改善した事例。
- Weights & BiasesにRAGASスコアを週次記録し、プロンプト変更やリランカー導入の効果をデータで比較するCI/CDパイプラインを構築した実装例。
RAGAS (RAG評価フレームワーク)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・252語以上を体系的に整理しています
辞典トップへ