AI PICKS
AI用語辞典評価指標

Eloレーティング (Elo Rating)

読み: えろれーてぃんぐ

最終更新: 2026-06-27・AI PICKS編集部

定義

Eloレーティングとは、チェスで生まれた相対的な強さの数値化手法をAIモデル評価に転用したスコアリングシステムのこと。

Eloレーティング (Elo Rating)とは — 詳しく解説

Eloレーティングは、1960年代にチェスプレイヤーの実力を数値化するために考案された評価システムをAI分野に転用したもの。LMSYS Chatbot Arenaが2023年に採用し、ChatGPTやClaudeなどのLLMを人間によるペアワイズ比較(2モデルの回答を並べ勝敗を判定)で動的にスコアリングする手法として業界標準となった。 2026年時点の実運用における落とし穴は、Eloスコアが「人間に好まれる回答」を反映するため、正確性・論理的整合性と必ずしも一致しない点。流暢に聞こえる誤情報を含む回答が高評価を得るケースも多く、RAGや専門タスクでは別指標との併用が現場のセオリーとなっている。 コスト面では、自社でElo評価基盤を構築する場合、API比較コストは安価($0.002〜$0.01/件)だが統計的信頼性を得るには数千回以上の比較が必要で、人手ラベリングとのハイブリッドが相場感。AI PICKSでは毎月のEloスコア動向を追跡しており、2026年前半はGemini 2.5 ProとClaude Opus 4が上位を争う構図が続く。選び方としては「Eloが高い=業務適合」ではなく、自社タスク特化のevalとの組み合わせを推奨する。

Eloレーティング (Elo Rating)の使用例

  • ChatGPTとClaudeに同じプロンプトを投げ、どちらの回答が優れているか評価者が選ぶ。この投票を繰り返してEloスコアを算出し、モデル比較の客観指標として活用する。
  • 社内LLMルーター選定時、LMSYS ArenaのEloスコアTop5モデルを自社タスク(日本語要約)で再テストし、Eloと業務性能のズレを検証してから採用モデルを決定した事例。

Eloレーティング (Elo Rating)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・202語以上を体系的に整理しています

辞典トップへ