AI PICKS
AI用語辞典評価指標

人手評価 (Human Evaluation)

読み: ひとでひょうか

最終更新: 2026-06-30・AI PICKS編集部

定義

人手評価とは、AIが生成したテキストや画像などの出力品質を、人間が直接採点・判定するモデル評価手法のこと。

人手評価 (Human Evaluation)とは — 詳しく解説

人手評価(Human Evaluation)は、BLEUやROUGEなどの自動評価指標では測れない「自然さ」「正確さ」「有害性」を人間のアノテーターが直接判定する手法。LLM開発や生成AIサービスの品質保証において不可欠とされる。 実運用では、アノテーターの主観バラつきを抑えるためのガイドライン整備と評価者間一致率(IAA)の計測が必須。2026年時点の相場感では、専門ドメイン(医療・法律)の評価は1タスクあたり5〜20ドル、一般テキストは1〜3ドルが目安。クラウドソーシングより社内評価チームの方が品質は安定するが、コストは3〜5倍になる。 現場での落とし穴として多いのが「評価スケールの粒度設計ミス」で、5段階評価で中間値に集中する中央化傾向が生じやすい。またLLMの回答を評価するLLM-as-Judgeが台頭しているが、最終的な信頼性担保には人手評価との組み合わせが推奨されている。

人手評価 (Human Evaluation)の使用例

  • ChatGPTの回答を5段階で評価してください。基準:正確性・流暢さ・有害性の3軸
  • このLLM出力をSatisfactory / Unsatisfactoryで判定し、理由を30字以内で記入してください

人手評価 (Human Evaluation)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・352語以上を体系的に整理しています

辞典トップへ