人手評価 (Human Evaluation)
読み: ひとでひょうか
最終更新: 2026-06-30・AI PICKS編集部
定義
人手評価とは、AIが生成したテキストや画像などの出力品質を、人間が直接採点・判定するモデル評価手法のこと。
人手評価 (Human Evaluation)とは — 詳しく解説
人手評価(Human Evaluation)は、BLEUやROUGEなどの自動評価指標では測れない「自然さ」「正確さ」「有害性」を人間のアノテーターが直接判定する手法。LLM開発や生成AIサービスの品質保証において不可欠とされる。 実運用では、アノテーターの主観バラつきを抑えるためのガイドライン整備と評価者間一致率(IAA)の計測が必須。2026年時点の相場感では、専門ドメイン(医療・法律)の評価は1タスクあたり5〜20ドル、一般テキストは1〜3ドルが目安。クラウドソーシングより社内評価チームの方が品質は安定するが、コストは3〜5倍になる。 現場での落とし穴として多いのが「評価スケールの粒度設計ミス」で、5段階評価で中間値に集中する中央化傾向が生じやすい。またLLMの回答を評価するLLM-as-Judgeが台頭しているが、最終的な信頼性担保には人手評価との組み合わせが推奨されている。
人手評価 (Human Evaluation)の使用例
- ChatGPTの回答を5段階で評価してください。基準:正確性・流暢さ・有害性の3軸
- このLLM出力をSatisfactory / Unsatisfactoryで判定し、理由を30字以内で記入してください
人手評価 (Human Evaluation)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・352語以上を体系的に整理しています
辞典トップへ