AI PICKS
AI用語辞典音声・音楽

VAD (音声区間検出)

読み: ぶいえーでぃ(おんせいくかんけんしゅつ)

最終更新: 2026-06-29・AI PICKS編集部

定義

VADとは音声ストリームの中から人間の発話が含まれる区間だけを自動で切り出す技術のこと。無音・環境ノイズと発話を区別し、音声認識システムの精度向上と計算コスト削減を同時に実現する。

VAD (音声区間検出)とは — 詳しく解説

VAD(Voice Activity Detection)は、マイク入力などの連続した音声データから「人が話している区間」だけを検出し、無音・背景雑音・環境音を除去するアルゴリズム。音声認識(STT)エンジンの前段に置かれるゲートとして機能し、不要な区間の処理を省くことで精度と速度を両立する。 2026年の実運用でよく採用されるのはSilero VAD(MITライセンス・数MB以下の軽量モデル)とWebRTC組み込みのGoogle VAD。Silero VADはリアルタイム処理とエッジデバイス対応が強みで、現場ではまずこれを試すのが定石だ。商用クラウドではAzure Speech ServicesやNVIDIA Rivaが高精度VADを提供しており、相場感は月間1,000時間処理で数万円規模。 落とし穴は閾値設定。静かなオフィスを前提に調整した感度は、騒音環境で誤検出を多発させる。日本語特有の「えー」「あー」などフィラー音を発話と見なすか無音扱いにするかで下流のSTT精度が変わるため、現場での個別チューニングが必須になる。また遅延も重要で、検出ウィンドウを長くするほど精度は上がるが会話のテンポが崩れる。AI PICKSが音声AIツールを評価する際も、VAD精度と遅延のバランスをリアルタイム会話体験の核心指標として重視している。

VAD (音声区間検出)の使用例

  • 会議録音アプリでVADを有効化し、発言区間だけをSTTに送ることで非発話区間の処理コストを削減しつつ書き起こし精度を向上させた事例。
  • コールセンターAIでVADを活用し、顧客の発話終了を検出してから応答生成を開始することで自然な会話テンポを実現する実装パターン。

VAD (音声区間検出)に関連するAIツール

関連用語

音声・音楽」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・302語以上を体系的に整理しています

辞典トップへ