OpenAI Whisperの料金とローカル実行を解説するヒーロー画像

Whisperの料金は結局いくら? API版($0.006/分)とローカル無料を徹底比較 (2026年版)

要点 (30秒で読める答え): Whisperの料金は2択。OpenAI APIで使うなら従量課金で約$0.006/分(1時間で約$0.36)、OSS版を自分のPCでローカル実行するなら無料(電気代のみ)です。大量に回すならローカル、数行で試したいならAPIが正解。

「Whisperって無料じゃなかったの?」。料金表を見て戸惑った人は多いはずです。答えはシンプル。APIなら1分0.9円、ローカルなら0円です。

Whisperとは、OpenAIが公開した99言語以上に対応するオープンソースの音声認識(文字起こし)モデルです。MITライセンスで配られているので、自分のPCに入れれば無料で使えます。一方で、コードを書かずに手軽に動かしたい人向けに、従量課金のAPIも用意されています。この二重構造が、料金を分かりにくくしている張本人です。

会議の議事録、YouTube動画の字幕、インタビューのテープ起こし。文字起こしは、誰もが一度は面倒だと感じる作業です。OpenAI Whisperは、その面倒をほぼ自動化してくれる定番ツールとして、2026年現在も使われ続けています。

料金目線で整理していきます。Whisper(OSS版・API版whisper-1)を軸に、API料金・ローカル無料の条件・Groqなど各社ホスティングの価格・モデル選び・日本語精度・競合との比較を並べました(2026-06-28 最終確認、最新仕様はOpenAI公式ドキュメントを参照)。OpenAIはwhisper-1の後継としてgpt-4o-transcribe系のSTTモデルも出していて、料金もそちらへ統合されつつあります。具体的な数字は後段で出します。

この記事のポイント Whisperの料金を、API版の従量課金・OSS版ローカルの無料・Groqなどホスティングの3軸で比較。モデル選び、faster-whisper・whisper.cppとの違い、日本語精度の検証まで料金目線でまとめます。

この記事の要点

30秒で結論

  • Whisperとは何か、なぜ文字起こしAIの定番なのか
  • API版の料金と使い方(Pythonコード付き)
  • ローカル実行が「無料」になる条件とGPU要件
  • Groq・Azureなどホスティング各社の料金比較
  • tiny〜large-v3-turboまでのモデル選び方
  • faster-whisper・whisper.cpp・mlx-whisperとの速度比較
  • 日本語の文字起こし精度と注意点

30秒で結論

Whisperとは? なぜ無料で使えるの?

料金重視で選ぶなら、判断は用途でほぼ決まります。

  • 手軽に使いたい人 → OpenAI API(whisper-1、$0.006/分)が手軽。短いPythonコードで動作確認できる
  • コストを抑えたい人 → ローカルでlarge-v3-turboを実行(無料)。GPU 6GB以上あれば快適
  • Macユーザー → mlx-whisperが最速。Apple Silicon最適化で爆速、しかも無料
  • 最高精度が必要 → large-v3をローカル実行(VRAM 10GB必要)

とにかく安く大量に回したいなら、Groqのホスティングが破格です。large-v3-turboで$0.04/時(2026-06-28時点 groq.com)。ただしリアルタイム文字起こしは事情が違います。Whisper OSS版・whisper-1 APIはバッチ処理向きなので、OpenAIのgpt-4o-transcribe系やRealtime API、Deepgram・Google STTが候補になります。

では、この料金差はどこから来るのか。順に見ていきます。

Whisperとは? なぜ無料で使えるの?

モデルの種類と選び方

OpenAI Whisperは、2022年9月にOpenAIがオープンソースで公開した汎用音声認識モデルです。68万時間以上のWeb音声データで訓練されています。特徴は次の3つに集約できます。

  • 99言語以上に対応(日本語含む)
  • 文字起こし英語への翻訳の2タスクに対応
  • MITライセンスで公開され、ローカル実行は無料・商用利用も可能

無料で使える理由はシンプルです。OpenAIがモデルの重み(学習済みデータ)をMITライセンスでまるごと公開しているので、誰でもダウンロードして自分のマシンで動かせます。だからローカル実行に料金は発生しません。かかるのは電気代とGPUの初期投資だけ。

一方、OpenAI APIでもwhisper-1モデルとして利用でき、こちらは使った分だけ課金されます(料金は後述、API利用はOpenAI利用規約・データポリシーが適用、2026-06-28時点)。

2026年現在、最新モデルはlarge-v3(2023年11月リリース)と、その高速化版であるlarge-v3-turbo(2024年10月リリース)です。

Whisperのアーキテクチャ

Whisperはエンコーダ・デコーダ型のTransformerモデルです。音声をメルスペクトログラム(音の周波数を画像のように表したもの)に変換し、エンコーダで特徴を抽出、デコーダがテキストを生成します。

処理の流れはこうです。

音声ファイル → メルスペクトログラム(128bin) → Transformerエンコーダ → Transformerデコーダ → テキスト出力

この設計のおかげで、ノイズの多い環境でも比較的高い精度を保てます。

モデルの種類と選び方

Whisperの料金はいくら? API版の使い方と価格

Whisperには用途に応じた複数のモデルサイズが用意されています。サイズが大きいほど精度は上がりますが、必要なメモリと処理時間も増えます。ここは料金(ローカルなら電気代、APIなら課金)に直結する選択です。

モデル一覧(2026年4月時点)

下の表は、各モデルの規模と必要スペックを並べたものです。

モデルパラメータ数必要VRAM相対速度英語WERおすすめ用途
tiny39M~1GB32x高めテスト・プロトタイプ
base74M~1GB16x中程度軽量な文字起こし
small244M~2GB6x中程度バランス型
medium769M~5GB2x低め高精度が必要な場面
large-v21.55B~10GB1x7.6%高精度(旧版)
large-v31.55B~10GB1x7.4%最高精度
large-v3-turbo809M~6GB6x7.75%速度と精度のベストバランス

つまり、多くのケースでlarge-v3-turboが最適解です。large-v3と1〜2%しか精度差がないのに、6倍速く動きます。VRAMも10GB→6GBに下がるので、ミドルクラスのGPUでも回せます。

Whisperの日本語の文字起こし精度は実用レベル?

クリアな音声なら実用レベルです。ただし英語に比べるとやや劣ります。気をつけたいのは次の3つ。

  • 固有名詞(人名・地名・企業名)の認識精度が低い場合がある
  • 専門用語(法律用語、不動産用語など)が正しく変換されないケースがある
  • 同音異義語の判別は文脈依存で、100%正確ではない

ある検証では、日本語の電話音声に対するCER(文字の誤り率)は約4〜5%でした。一般的な会話やインタビューなら十分使えます。ただし医療・法律・不動産などの専門分野では、事後の校正が前提になります。

精度を底上げする裏技もあります。ローカルOSS版(openai-whisper)ではinitial_prompt、OpenAI API(whisper-1)ではpromptパラメータに固有名詞リストを渡すと、変換精度が改善する場合があります(パラメータ名が異なる点に注意。詳細は公式ドキュメントを参照)。

result = model.transcribe(
    "audio.mp3",
    language="ja",
    initial_prompt="以下は不動産に関する会話です。礼金、敷金、築年数、内見などの用語が登場します。"
)

Whisperの料金はいくら? API版の使い方と価格

ここが本題です。Whisperの料金は「API従量課金」と「ローカル無料」の二択。まずは手軽なAPI版から見ていきます。

API料金(whisper-1モデル)

OpenAI Whisper API(whisper-1)の料金は、長く$0.006/分で据え置かれています(2026-06-28 最終確認、最新は公式価格表を参照)。1時間の音声なら約$0.36、日本円で約54円です。

項目内容
モデルwhisper-1(large-v2ベース)
料金$0.006/分(秒単位で切り上げ、whisper-1限定)
1時間あたり約$0.36(約54円)
ファイル上限25MB
対応形式mp3, mp4, mpeg, mpga, m4a, wav, webm

つまり、数十時間程度の文字起こしなら数百円で済みます。コードを書く手間を考えれば破格です。

ただし2026年現在、料金体系は静かに動いています。現行価格表ではwhisper-1単独の項目が姿を消し、後継のgpt-4o-transcribe / gpt-4o-mini-transcribeへ統合されつつあります。OpenAI公式(developers.openai.com、2026-06-28確認)によれば、現行の音声認識モデルの料金は次の通り。

モデル料金/分1時間あたり位置づけ
whisper-1$0.006約$0.36従来モデル(互換維持)
gpt-4o-transcribe$0.006約$0.36後継・高精度
gpt-4o-mini-transcribe$0.003約$0.18軽量・最安

つまり、安く済ませたいならgpt-4o-mini-transcribeが$0.003/分で半額。最新の料金・制限・モデル選択は、必ず公式価格表とAPIリファレンスで確認してください。

APIキーの取得手順

API版を使う前に、キーの発行と少額の入金が必要です。手順は4ステップ。

  1. OpenAI Platformにアクセス
  2. アカウントを作成(またはログイン)
  3. 左メニューの「API keys」からキーを生成
  4. Billing設定で最低$5を入金(自動チャージはOFFにしておくのがおすすめ)

Python(公式SDK)での実装

インストールはpip一発で終わります。

pip install openai

文字起こしの基本コードはこれだけ。

from openai import OpenAI
client = OpenAI(api_key="sk-...")

# 文字起こし(Transcription)
with open("meeting.mp3", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        language="ja",  # 日本語を指定(省略で自動検出)
        response_format="verbose_json",  # タイムスタンプ付き
    )

print(transcript.text)

英語への翻訳も、モデルを変えずに呼べます。

# 英語への翻訳(Translation)
with open("japanese_audio.mp3", "rb") as audio_file:
    translation = client.audio.translations.create(
        model="whisper-1",
        file=audio_file,
    )

print(translation.text)

25MBを超えるファイルの処理

APIのファイルサイズ上限は25MBです。1時間級の会議音声はこの上限を超えるので、長時間の音声はpydubで分割してから送信します。

from pydub import AudioSegment
audio = AudioSegment.from_file("long_meeting.mp3")
chunk_length_ms = 10 * 60 * 1000  # 10分ごとに分割

chunks = [audio[i:i+chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]

full_text = ""
for i, chunk in enumerate(chunks):
    chunk.export(f"/tmp/chunk_{i}.mp3", format="mp3")
    with open(f"/tmp/chunk_{i}.mp3", "rb") as f:
        result = client.audio.transcriptions.create(
            model="whisper-1",
            file=f,
            language="ja",
        )
    full_text += result.text + "\n"

print(full_text)

API料金が分かったところで、料金を0円にできるローカル実行に進みます。

Whisperは無料で使える? ローカル実行の始め方(OSS版)

無料で使えます。ローカル実行なら料金は完全に0円。しかもデータがOpenAIのサーバーに送信されないので、プライバシーの観点でも安心です。月に何十時間も文字起こしする人にとっては、これが最大の節約になります。

無料の条件は1つだけ。large系モデルを快適に動かすにはGPUが要ります。GPUがなくてもtiny・baseなら動きますが、実用速度を出すならNVIDIA GPU(VRAM 6GB以上)かApple Silicon搭載Macが現実的です。

前提条件

  • Python 3.9〜3.12
  • FFmpeg(音声処理に必須)
  • GPU推奨(NVIDIA GPU + CUDA、またはApple Silicon)

インストール手順

FFmpegとWhisper本体を入れれば準備完了です。

# 1. FFmpegをインストール
# macOS
brew install ffmpeg

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

# Windows(Chocolatey)
choco install ffmpeg

# 2. Whisperをインストール
pip install openai-whisper

基本的な使い方

Pythonからモデルを読み込んで実行します。

import whisper

# モデルの読み込み(初回はダウンロードが入る)
model = whisper.load_model("large-v3-turbo")

# 文字起こし
result = model.transcribe(
    "meeting.mp3",
    language="ja",
    fp16=False,  # CPU実行時はFalseにする
)

print(result["text"])

# セグメントごとのタイムスタンプも取得可能
for segment in result["segments"]:
    print(f"[{segment['start']:.1f}s - {segment['end']:.1f}s] {segment['text']}")

コマンドラインでの使い方

コードを書かず、ターミナルから直接叩くこともできます。

# 基本
whisper audio.mp3 --language ja --model large-v3-turbo

# SRT字幕ファイルを出力
whisper audio.mp3 --language ja --model large-v3-turbo --output_format srt

# 複数ファイルを一括処理
whisper *.mp3 --language ja --model medium --output_dir ./transcripts/

ここまでの整理: Whisperの料金は「API従量課金(whisper-1で$0.006/分)」か「ローカル無料(電気代のみ)」の二択。手軽さならAPI、コスト最優先ならローカルです。ここからは、そのローカルをさらに速くする実装を見ていきます。

高速化ツール比較:faster-whisper / whisper.cpp / mlx-whisper

公式のWhisperは精度は高いものの、推論速度に課題があります。以下のサードパーティ実装を使えば、同じモデル・同じ無料のまま大幅に速くなります。料金はどれも0円なので、ここは速度で選びます。

比較表

環境別のおすすめを一覧にすると、選択は使っているマシンでほぼ決まります。

実装言語速度向上特徴おすすめ環境
openai-whisper(公式)Python1x(基準)公式、安定GPU搭載マシン
faster-whisperPython最大4倍CTranslate2ベース、省メモリCUDA GPU
whisper.cppC++2〜3倍CPU最適化、エッジ向けCPU環境・組み込み
mlx-whisperPythonwhisper.cppの2倍Apple Silicon最適化Mac(M1/M2/M3/M4)

つまり、NVIDIA GPUならfaster-whisper、Macならmlx-whisper、CPUしかないならwhisper.cppが定石です。

faster-whisperの使い方

CUDA GPUを積んだマシンなら、これが本命です。

pip install faster-whisper
from faster_whisper import WhisperModel
# large-v3-turboモデルをGPUで実行(float16)
model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")

# CPU実行の場合
# model = WhisperModel("large-v3-turbo", device="cpu", compute_type="int8")

segments, info = model.transcribe("meeting.mp3", language="ja", beam_size=5)

print(f"検出言語: {info.language} (確率: {info.language_probability:.2f})")
for segment in segments:
    print(f"[{segment.start:.1f}s - {segment.end:.1f}s] {segment.text}")

faster-whisperはメモリ使用量も公式版の半分程度。同じGPUでより大きなモデルが動かせるのが、地味に効きます。

mlx-whisperの使い方(Mac専用)

Apple Silicon搭載のMacなら、mlx-whisperが圧倒的に速いです。

pip install mlx-whisper

コマンドラインでもPythonでも呼べます。

# コマンドラインで実行
mlx_whisper --model mlx-community/whisper-large-v3-turbo audio.mp3
import mlx_whisper

result = mlx_whisper.transcribe(
    "meeting.mp3",
    path_or_hf_repo="mlx-community/whisper-large-v3-turbo",
)
print(result["text"])

2026年1月のベンチマークでは、mlx-whisperはwhisper.cppの2.03倍高速という結果が出ています。M4 Mac miniなら、1時間の音声を数分で処理できます。しかも料金は0円です。

whisper.cppの使い方

GPUがない環境や、Raspberry PiなどのエッジデバイスにはCPU最適化されたwhisper.cppが向きます。

# ビルド
git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp
cmake -B build && cmake --build build --config Release

# モデルのダウンロード
bash models/download-ggml-model.sh large-v3-turbo

# 実行(WAV形式に変換してから)
ffmpeg -i meeting.mp3 -ar 16000 -ac 1 -c:a pcm_s16le meeting.wav
./build/bin/whisper-cli -m models/ggml-large-v3-turbo.bin -l ja -f meeting.wav

ローカルもAPIも分かったところで、両者の中間にある「ホスティング各社」の料金を比較します。

Groq・各社ホスティングのWhisper料金比較

「ローカルのGPUは持っていないけど、API並みの手軽さで安く回したい」。そういう人には、ホスティング各社という第3の選択肢があります。OSS版Whisperを各社のインフラで動かし、API経由で使える形にしたものです。

なかでもGroqが破格。Groq公式(groq.com/pricing、2026-06-28確認)によれば、Whisper系の料金は次の通りです。

提供モデル料金/時間換算(/分)リアルタイム
OpenAI APIwhisper-1$0.36$0.006
OpenAI APIgpt-4o-mini-transcribe$0.18$0.003
Groqdistil-whisper$0.02$0.00033
Groqlarge-v3-turbo$0.04$0.00067
Groqlarge-v3$0.111$0.00185
Whisperローカルlarge-v3-turbo無料$0

つまり、ホスティングでコストを削るならGroq一択。large-v3-turboで$0.04/時は、OpenAI API($0.36/時)の約9分の1です。なお全ASRモデルに「1リクエストあたり最低10秒分の課金」がある点は注意(Groq公式)。

Azure・Google CloudもWhisper相当のSTTを提供しています。ただし料金体系が分単位で異なり、エンタープライズ向けの機能(SLA・オンプレ対応)込みの価格設計です。次の競合比較表で、まとめて並べます。

競合サービスとの比較

料金・速度・精度の比較表

Whisper以外の主要STTサービスを、料金と機能で横並びにしたものです。

サービス料金/分月1,000時間コスト速度日本語対応リアルタイム
OpenAI Whisper API$0.006$3601x
Deepgram Nova-3$0.0043$25830x
Google Cloud STT v2$0.016$9605x
AWS Transcribe$0.024$1,4402x
ElevenLabs Scribe$0.006$360高速
Whisperローカル無料$0GPU依存

数字を見れば一目瞭然。月1,000時間を回すなら、ローカル実行の$0が圧倒的です。クラウドの手軽さを取るなら、Deepgramが安い。

どれを選ぶべきか

用途別に整理すると、迷うポイントはほぼ消えます。

コスト最優先 → Whisperをローカル実行(無料)、ホスティングならGroq(large-v3-turbo $0.04/時)

API手軽さ重視 → OpenAI Whisper API。5行のコードで動く

リアルタイム文字起こし → DeepgramかGoogle Cloud STT。Whisperはバッチ処理専用

日本語の専門用語精度 → Google Cloud STTが住所・固有名詞に強い。カスタム辞書にも対応

エンタープライズ・セキュリティ → Azure Speech Services。カスタムモデル・オンプレ対応あり

「コードは書きたくない、すぐ使えるツールがいい」という人は、ツールから探すほうが近道です。Whisperを内部エンジンに採用したものも多いので、まずAI文字起こしツール比較を眺めると選択肢が一気に絞れます。無料枠から探すなら無料の文字起こしツールおすすめ、会議用途に絞るならAI議事録ツールのおすすめ、日本語特化ならRimo Voice完全ガイドが候補になります。音声系ツール全般はai-voiceカテゴリから横断して探せます。

実践的なユースケース

1. 会議の議事録作成

無音区間を自動でスキップしつつ、Markdownの議事録に落とす例です。

from faster_whisper import WhisperModel
model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")
segments, info = model.transcribe(
    "meeting_2026-04-03.mp3",
    language="ja",
    beam_size=5,
    vad_filter=True,  # 無音区間を自動スキップ
    vad_parameters=dict(min_silence_duration_ms=500),
)

# Markdown形式で出力
with open("minutes.md", "w") as f:
    f.write("# 議事録\n\n")
    for seg in segments:
        minutes = int(seg.start // 60)
        seconds = int(seg.start % 60)
        f.write(f"<strong>[{minutes:02d}:{seconds:02d}]</strong> {seg.text}\n\n")

2. YouTube動画の字幕生成(SRT形式)

yt-dlpで音声を抜き、Whisperで字幕化する2コマンドです。

# yt-dlpで音声をダウンロード
yt-dlp -x --audio-format mp3 "https://www.youtube.com/watch?v=XXXXX" -o audio.mp3

# Whisperで字幕生成
whisper audio.mp3 --language ja --model large-v3-turbo --output_format srt

3. Podcastのテキスト化と要約

文字起こしからChatGPT要約まで、一気通貫でつなぐ例です。

from faster_whisper import WhisperModel
from openai import OpenAI
# Step 1: 文字起こし
whisper_model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")
segments, _ = whisper_model.transcribe("podcast.mp3", language="ja")
full_text = " ".join([seg.text for seg in segments])

# Step 2: ChatGPTで要約
client = OpenAI()
summary = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": "以下のPodcast文字起こしを、要点を箇条書きで要約してください。"},
        {"role": "user", "content": full_text}
    ]
)
print(summary.choices[0].message.content)

編集部の評価

文字起こしAIは「精度」「コスト」「導入のしやすさ」で評価が分かれます。Whisperを軸に、公開情報から率直に評価しました。

公開情報からの比較整理

主要な実装を料金・環境・向き不向きで並べると、こうなります。

項目OpenAI API (Whisper)ローカルlarge-v3faster-whispermlx-whisper
料金$0.006/分電気代のみ電気代のみ電気代のみ
実行環境クラウドGPU 10GB目安GPU/CPU両対応Apple Silicon専用
日本語対応◯ (最高精度)
商用利用OpenAI利用規約に準拠MITライセンスMITライセンスMITライセンス
向くケース試作・小規模高精度・機密データサーバー本番運用Macローカル

※ 料金・仕様は2026-06-28時点の公開情報。最新は各公式ドキュメントを参照。

編集部の総合判断

公開情報をもとに、率直な評価を。

  • OpenAI API: とりあえず試したい個人・小規模チームには一択。コード数行・1時間で約54円なら、検討の余地なし
  • Groqホスティング: 大量に安く回すなら破格。large-v3-turboで$0.04/時はOpenAI APIの約9分の1で、地味に効く
  • faster-whisper(ローカル): 機密音声を扱う企業に重宝します。クラウドにデータを出さず、コストも電気代に収まる
  • mlx-whisper: Macユーザーには頭ひとつ抜けた処理速度。ローカル完結・無料で、字幕作成・議事録に最適
  • 正直イマイチな点: 標準では話者分離もリアルタイムも非対応。ここが必要ならDeepgram・Google STTのほうがいい

よくある質問(FAQ)

Q. Whisperは完全に無料で使えますか?

ローカル実行なら完全無料です。オープンソース(MITライセンス)なので、商用利用も問題ありません。APIを使う場合は$0.006/分(約0.9円/分)の従量課金になります(2026-06-28時点)。

Q. Whisperの料金を一番安く抑える方法は?

自前のGPUがあれば、ローカル実行で0円が最安です。GPUがない場合は、Groqのホスティング(large-v3-turboで$0.04/時、2026-06-28時点 groq.com)がOpenAI API($0.36/時)の約9分の1で、API手軽さと低コストを両立できます。

Q. whisper-1とgpt-4o-transcribeで料金は違いますか?

OpenAI公式(2026-06-28確認)によれば、whisper-1とgpt-4o-transcribeはどちらも$0.006/分。さらに軽量なgpt-4o-mini-transcribeは$0.003/分と半額です。最新の価格は公式価格表で確認してください。

Q. GPUがなくてもWhisperは動きますか?

動きます。ただしCPUだと処理速度が大幅に遅くなります。tinyやbaseモデルならCPUでも実用的ですが、large系のモデルはGPUを強く推奨します。Apple Silicon搭載のMacなら、mlx-whisperで高速に動作します。

Q. Whisperはリアルタイムの音声認識に対応していますか?

標準のWhisperはバッチ処理(録音済みファイルの処理)専用です。リアルタイム文字起こしが必要な場合は、WhisperLiveやwhisper_streamingなどのラッパーライブラリを使うか、OpenAIのRealtime API、DeepgramやGoogle Cloud STTを検討してください。

Q. 日本語の文字起こし精度はどのくらいですか?

クリアな音声であれば実用的な精度です。CER(文字の誤り率)は一般的な会話で4〜5%程度。ただし固有名詞や専門用語は誤認識が起きやすいため、initial_promptで用語リストを渡すか、事後の校正を組み合わせるのがおすすめです。

Q. large-v3とlarge-v3-turboはどちらを選ぶべきですか?

ほとんどのケースでlarge-v3-turboが最適です。精度差はわずか1〜2%で、処理速度は6倍高速。VRAM要件も10GB→6GBに下がります。ただし翻訳タスク(他言語→英語)にはturboは不向きで、large-v3やmediumのほうが正確です。

Q. Whisperで話者分離(スピーカーダイアリゼーション)はできますか?

Whisper単体では対応していません。pyannote-audioなどの話者分離ライブラリと組み合わせることで実現できます。faster-whisperにはvad_filter(音声区間検出)が組み込まれており、無音区間のスキップは可能です。

あわせて読みたい


次に読むならこれ。Whisperを内部エンジンに使うツールも含めて「結局どれが自分に合うか」を選びたいなら、AI文字起こしツール比較へ。無料・有料を横並びにしてあるので、料金の話がそのまま製品選びに直結します。