WER (単語誤り率)
読み: だぶりゅーいーあーる
最終更新: 2026-06-28・AI PICKS編集部
定義
WER(単語誤り率)とは、音声認識・文字起こし・機械翻訳の精度を数値化する業界標準の評価指標のこと。正解テキストとの差異(置換・削除・挿入)の合計語数を正解語数で割った値で、低いほど高精度を示す。
WER (単語誤り率)とは — 詳しく解説
WER(Word Error Rate)は音声認識・文字起こし・機械翻訳の精度評価に広く使われる指標で、(置換数+削除数+挿入数)÷正解語数×100で算出する。商用ASRでは10%以下が実用水準の目安とされる。 2026年の実運用で現場が直面する落とし穴は主に3点。①日本語は単語境界が曖昧で、形態素解析ツールの違いによりスコアが数%単位でブレる。英語前提の評価ライブラリをそのまま流用すると数値の信頼性が低下する。②騒音環境や専門用語の多い業務音声では、公表ベンチマーク値と実際の現場数値に10ポイント以上の乖離が出ることも珍しくない。③WER単体では文意の正確性を担保できない。句読点ミスや語順の誤りは意味を損なっても数値に反映されにくいため、CER(文字誤り率)や意味的類似度と組み合わせるのが相場感。 コスト感として、人手アノテーションによるWER計測は1時間音声あたり2〜5万円が国内相場。まず既製ASRツールで計測し、WERが15%を超えるようであればファインチューニングの検討が現実的な進め方だ。
WER (単語誤り率)の使用例
- 音声注文システムのWERを5%以下に抑えるため、業界専門用語500語をファインチューニングデータに追加した。
- 英語ASRのWERが8%でも日本語に適用すると30%超えることがある。言語ごとに評価し直すこと。
WER (単語誤り率)に関連するAIツール
関連用語
「評価指標」の他の用語
Massive Multitask Language Understanding。 57 分野・1.5 万問の LLM 知識評価ベンチマーク。
OpenAI 発の Python コーディング能力ベンチマーク。 164 問の関数実装タスク。
ユーザー投票による LLM の人間評価ランキング。 Elo レーティングで モデルを順位付け。
ベンチマークとは、AIモデルの性能を標準化されたテスト課題で数値化し、異なるモデル間を公平に比較するための評価基準セットのこと。MMLUやHumanEval等、用途別に数十種類が存在する。
SWE-benchとはGitHubの実際のIssueをAIが自動修正できるかを測る、コーディングAI評価の業界標準ベンチマークのこと。
GPQAとは、生物・物理・化学の大学院レベルの難問でAIの推論力を測る評価ベンチマークのこと。Googleで検索しても解けない設計が特徴。
AI用語辞典をすべて見てみませんか
12カテゴリ・252語以上を体系的に整理しています
辞典トップへ