F1スコア (F1 Score)
読み: えふわんすこあ
最終更新: 2026-06-30・AI PICKS編集部
定義
F1スコアとは、分類モデルの適合率(Precision)と再現率(Recall)を調和平均した評価指標のこと。どちらかが低いと値が大きく下がるため、不均衡データの性能評価に広く用いられる。
F1スコア (F1 Score)とは — 詳しく解説
F1スコアは、分類タスクにおける適合率(Precision:正と予測した中で実際に正の割合)と再現率(Recall:実際に正の中で正と予測できた割合)を調和平均した指標。計算式は 2×P×R÷(P+R) で、0〜1の範囲をとり1が最高値となる。 AIモデル評価の現場では、適合率と再現率のトレードオフが常に存在する。スパムフィルタなら「見逃しを減らしたい」→再現率重視、医療診断なら「誤検出を避けたい」→適合率重視、という判断が求められる。F1スコアは両者の妥協点を一数値で表すが、クラス不均衡が著しい場合はMacro F1・Weighted F1・PR曲線のAUCを併用するのが2026年の実運用標準だ。 LLM評価の文脈でもF1は主役格で、RAGシステムの回答品質や、ハルシネーション検出モデルの性能測定に広く使われる。AI PICKSの現場調査では「F1スコア単体で判断して後で痛い目を見た」事例が多く、特に不均衡データではF1=0.8でも多数派クラスへの偏りが隠れることが要注意点として繰り返し挙がる。 相場感として、DataikuやAmazon Bedrockなど商用MLプラットフォームではF1の自動算出・可視化が標準搭載されており、導入コストは月10〜30万円台が多い。個人開発レベルではscikit-learnで無償利用可能。
F1スコア (F1 Score)の使用例
- チャーン予測モデルのF1スコアが0.72→「適合率と再現率のどちらを優先するか」をビジネス側と合意してから閾値を調整する、というのが現場の正しい手順。
- RAGシステムの評価でF1=0.85を達成したが、Weighted F1で確認すると少数派カテゴリのスコアが0.61だった——単一指標だけ見ると見落とす典型例。
F1スコア (F1 Score)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・352語以上を体系的に整理しています
辞典トップへ