AI PICKS
AI用語辞典評価指標

F1スコア (F1 Score)

読み: えふわんすこあ

最終更新: 2026-06-30・AI PICKS編集部

定義

F1スコアとは、分類モデルの適合率(Precision)と再現率(Recall)を調和平均した評価指標のこと。どちらかが低いと値が大きく下がるため、不均衡データの性能評価に広く用いられる。

F1スコア (F1 Score)とは — 詳しく解説

F1スコアは、分類タスクにおける適合率(Precision:正と予測した中で実際に正の割合)と再現率(Recall:実際に正の中で正と予測できた割合)を調和平均した指標。計算式は 2×P×R÷(P+R) で、0〜1の範囲をとり1が最高値となる。 AIモデル評価の現場では、適合率と再現率のトレードオフが常に存在する。スパムフィルタなら「見逃しを減らしたい」→再現率重視、医療診断なら「誤検出を避けたい」→適合率重視、という判断が求められる。F1スコアは両者の妥協点を一数値で表すが、クラス不均衡が著しい場合はMacro F1・Weighted F1・PR曲線のAUCを併用するのが2026年の実運用標準だ。 LLM評価の文脈でもF1は主役格で、RAGシステムの回答品質や、ハルシネーション検出モデルの性能測定に広く使われる。AI PICKSの現場調査では「F1スコア単体で判断して後で痛い目を見た」事例が多く、特に不均衡データではF1=0.8でも多数派クラスへの偏りが隠れることが要注意点として繰り返し挙がる。 相場感として、DataikuやAmazon Bedrockなど商用MLプラットフォームではF1の自動算出・可視化が標準搭載されており、導入コストは月10〜30万円台が多い。個人開発レベルではscikit-learnで無償利用可能。

F1スコア (F1 Score)の使用例

  • チャーン予測モデルのF1スコアが0.72→「適合率と再現率のどちらを優先するか」をビジネス側と合意してから閾値を調整する、というのが現場の正しい手順。
  • RAGシステムの評価でF1=0.85を達成したが、Weighted F1で確認すると少数派カテゴリのスコアが0.61だった——単一指標だけ見ると見落とす典型例。

F1スコア (F1 Score)に関連するAIツール

関連用語

評価指標」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・352語以上を体系的に整理しています

辞典トップへ