Question 1

人手評価 (Human Evaluation)とは何ですか？

Accepted Answer

人手評価とは、AIが生成したテキストや画像などの出力品質を、人間が直接採点・判定するモデル評価手法のこと。 人手評価（Human Evaluation）は、BLEUやROUGEなどの自動評価指標では測れない「自然さ」「正確さ」「有害性」を人間のアノテーターが直接判定する手法。LLM開発や生成AIサービスの品質保証において不可欠とされる。

実運用では、アノテーターの主観バラつきを抑えるためのガイドライン整備と評価者間一致率（IAA）の計測が必須。2026年時点の相場感では、専門ドメイン（医療・法律）の評

Question 2

人手評価 (Human Evaluation)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。ChatGPTの回答を5段階で評価してください。基準：正確性・流暢さ・有害性の3軸 / このLLM出力をSatisfactory / Unsatisfactoryで判定し、理由を30字以内で記入してください詳細な解説は人手評価 (Human Evaluation)の詳細ページをご覧ください。

Question 3

人手評価 (Human Evaluation)とLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

人手評価 (Human Evaluation)とLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。人手評価 (Human Evaluation)は人手評価とは、AIが生成したテキストや画像などの出力品質を、人間が直接採点・判定するモデル評価手法のこと。詳しくは関連用語の解説ページをご参照ください。

人手評価 (Human Evaluation)

定義

人手評価 (Human Evaluation)とは — 詳しく解説

人手評価 (Human Evaluation)の使用例

人手評価 (Human Evaluation)に関連するAIツール

関連用語

「評価指標」の他の用語

AI用語辞典をすべて見てみませんか