
Whisperの料金は結局いくら? API版($0.006/分)とローカル無料を徹底比較 (2026年版)
要点 (30秒で読める答え): Whisperの料金は2択。OpenAI APIで使うなら従量課金で約$0.006/分(1時間で約$0.36)、OSS版を自分のPCでローカル実行するなら無料(電気代のみ)です。大量に回すならローカル、数行で試したいならAPIが正解。
「Whisperって無料じゃなかったの?」。料金表を見て戸惑った人は多いはずです。答えはシンプル。APIなら1分0.9円、ローカルなら0円です。
Whisperとは、OpenAIが公開した99言語以上に対応するオープンソースの音声認識(文字起こし)モデルです。MITライセンスで配られているので、自分のPCに入れれば無料で使えます。一方で、コードを書かずに手軽に動かしたい人向けに、従量課金のAPIも用意されています。この二重構造が、料金を分かりにくくしている張本人です。
会議の議事録、YouTube動画の字幕、インタビューのテープ起こし。文字起こしは、誰もが一度は面倒だと感じる作業です。OpenAI Whisperは、その面倒をほぼ自動化してくれる定番ツールとして、2026年現在も使われ続けています。
料金目線で整理していきます。Whisper(OSS版・API版whisper-1)を軸に、API料金・ローカル無料の条件・Groqなど各社ホスティングの価格・モデル選び・日本語精度・競合との比較を並べました(2026-06-28 最終確認、最新仕様はOpenAI公式ドキュメントを参照)。OpenAIはwhisper-1の後継としてgpt-4o-transcribe系のSTTモデルも出していて、料金もそちらへ統合されつつあります。具体的な数字は後段で出します。
この記事のポイント Whisperの料金を、API版の従量課金・OSS版ローカルの無料・Groqなどホスティングの3軸で比較。モデル選び、faster-whisper・whisper.cppとの違い、日本語精度の検証まで料金目線でまとめます。
この記事の要点

- Whisperとは何か、なぜ文字起こしAIの定番なのか
- API版の料金と使い方(Pythonコード付き)
- ローカル実行が「無料」になる条件とGPU要件
- Groq・Azureなどホスティング各社の料金比較
- tiny〜large-v3-turboまでのモデル選び方
- faster-whisper・whisper.cpp・mlx-whisperとの速度比較
- 日本語の文字起こし精度と注意点
30秒で結論

料金重視で選ぶなら、判断は用途でほぼ決まります。
- 手軽に使いたい人 → OpenAI API(whisper-1、$0.006/分)が手軽。短いPythonコードで動作確認できる
- コストを抑えたい人 → ローカルでlarge-v3-turboを実行(無料)。GPU 6GB以上あれば快適
- Macユーザー → mlx-whisperが最速。Apple Silicon最適化で爆速、しかも無料
- 最高精度が必要 → large-v3をローカル実行(VRAM 10GB必要)
とにかく安く大量に回したいなら、Groqのホスティングが破格です。large-v3-turboで$0.04/時(2026-06-28時点 groq.com)。ただしリアルタイム文字起こしは事情が違います。Whisper OSS版・whisper-1 APIはバッチ処理向きなので、OpenAIのgpt-4o-transcribe系やRealtime API、Deepgram・Google STTが候補になります。
では、この料金差はどこから来るのか。順に見ていきます。
Whisperとは? なぜ無料で使えるの?

OpenAI Whisperは、2022年9月にOpenAIがオープンソースで公開した汎用音声認識モデルです。68万時間以上のWeb音声データで訓練されています。特徴は次の3つに集約できます。
- 99言語以上に対応(日本語含む)
- 文字起こしと英語への翻訳の2タスクに対応
- MITライセンスで公開され、ローカル実行は無料・商用利用も可能
無料で使える理由はシンプルです。OpenAIがモデルの重み(学習済みデータ)をMITライセンスでまるごと公開しているので、誰でもダウンロードして自分のマシンで動かせます。だからローカル実行に料金は発生しません。かかるのは電気代とGPUの初期投資だけ。
一方、OpenAI APIでもwhisper-1モデルとして利用でき、こちらは使った分だけ課金されます(料金は後述、API利用はOpenAI利用規約・データポリシーが適用、2026-06-28時点)。
2026年現在、最新モデルはlarge-v3(2023年11月リリース)と、その高速化版であるlarge-v3-turbo(2024年10月リリース)です。
Whisperのアーキテクチャ
Whisperはエンコーダ・デコーダ型のTransformerモデルです。音声をメルスペクトログラム(音の周波数を画像のように表したもの)に変換し、エンコーダで特徴を抽出、デコーダがテキストを生成します。
処理の流れはこうです。
音声ファイル → メルスペクトログラム(128bin) → Transformerエンコーダ → Transformerデコーダ → テキスト出力
この設計のおかげで、ノイズの多い環境でも比較的高い精度を保てます。
モデルの種類と選び方

Whisperには用途に応じた複数のモデルサイズが用意されています。サイズが大きいほど精度は上がりますが、必要なメモリと処理時間も増えます。ここは料金(ローカルなら電気代、APIなら課金)に直結する選択です。
モデル一覧(2026年4月時点)
下の表は、各モデルの規模と必要スペックを並べたものです。
| モデル | パラメータ数 | 必要VRAM | 相対速度 | 英語WER | おすすめ用途 |
|---|---|---|---|---|---|
| tiny | 39M | ~1GB | 32x | 高め | テスト・プロトタイプ |
| base | 74M | ~1GB | 16x | 中程度 | 軽量な文字起こし |
| small | 244M | ~2GB | 6x | 中程度 | バランス型 |
| medium | 769M | ~5GB | 2x | 低め | 高精度が必要な場面 |
| large-v2 | 1.55B | ~10GB | 1x | 7.6% | 高精度(旧版) |
| large-v3 | 1.55B | ~10GB | 1x | 7.4% | 最高精度 |
| large-v3-turbo | 809M | ~6GB | 6x | 7.75% | 速度と精度のベストバランス |
つまり、多くのケースでlarge-v3-turboが最適解です。large-v3と1〜2%しか精度差がないのに、6倍速く動きます。VRAMも10GB→6GBに下がるので、ミドルクラスのGPUでも回せます。
Whisperの日本語の文字起こし精度は実用レベル?
クリアな音声なら実用レベルです。ただし英語に比べるとやや劣ります。気をつけたいのは次の3つ。
- 固有名詞(人名・地名・企業名)の認識精度が低い場合がある
- 専門用語(法律用語、不動産用語など)が正しく変換されないケースがある
- 同音異義語の判別は文脈依存で、100%正確ではない
ある検証では、日本語の電話音声に対するCER(文字の誤り率)は約4〜5%でした。一般的な会話やインタビューなら十分使えます。ただし医療・法律・不動産などの専門分野では、事後の校正が前提になります。
精度を底上げする裏技もあります。ローカルOSS版(openai-whisper)ではinitial_prompt、OpenAI API(whisper-1)ではpromptパラメータに固有名詞リストを渡すと、変換精度が改善する場合があります(パラメータ名が異なる点に注意。詳細は公式ドキュメントを参照)。
result = model.transcribe(
"audio.mp3",
language="ja",
initial_prompt="以下は不動産に関する会話です。礼金、敷金、築年数、内見などの用語が登場します。"
)
Whisperの料金はいくら? API版の使い方と価格
ここが本題です。Whisperの料金は「API従量課金」と「ローカル無料」の二択。まずは手軽なAPI版から見ていきます。
API料金(whisper-1モデル)
OpenAI Whisper API(whisper-1)の料金は、長く$0.006/分で据え置かれています(2026-06-28 最終確認、最新は公式価格表を参照)。1時間の音声なら約$0.36、日本円で約54円です。
| 項目 | 内容 |
|---|---|
| モデル | whisper-1(large-v2ベース) |
| 料金 | $0.006/分(秒単位で切り上げ、whisper-1限定) |
| 1時間あたり | 約$0.36(約54円) |
| ファイル上限 | 25MB |
| 対応形式 | mp3, mp4, mpeg, mpga, m4a, wav, webm |
つまり、数十時間程度の文字起こしなら数百円で済みます。コードを書く手間を考えれば破格です。
ただし2026年現在、料金体系は静かに動いています。現行価格表ではwhisper-1単独の項目が姿を消し、後継のgpt-4o-transcribe / gpt-4o-mini-transcribeへ統合されつつあります。OpenAI公式(developers.openai.com、2026-06-28確認)によれば、現行の音声認識モデルの料金は次の通り。
| モデル | 料金/分 | 1時間あたり | 位置づけ |
|---|---|---|---|
| whisper-1 | $0.006 | 約$0.36 | 従来モデル(互換維持) |
| gpt-4o-transcribe | $0.006 | 約$0.36 | 後継・高精度 |
| gpt-4o-mini-transcribe | $0.003 | 約$0.18 | 軽量・最安 |
つまり、安く済ませたいならgpt-4o-mini-transcribeが$0.003/分で半額。最新の料金・制限・モデル選択は、必ず公式価格表とAPIリファレンスで確認してください。
APIキーの取得手順
API版を使う前に、キーの発行と少額の入金が必要です。手順は4ステップ。
- OpenAI Platformにアクセス
- アカウントを作成(またはログイン)
- 左メニューの「API keys」からキーを生成
- Billing設定で最低$5を入金(自動チャージはOFFにしておくのがおすすめ)
Python(公式SDK)での実装
インストールはpip一発で終わります。
pip install openai
文字起こしの基本コードはこれだけ。
from openai import OpenAI
client = OpenAI(api_key="sk-...")
# 文字起こし(Transcription)
with open("meeting.mp3", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
language="ja", # 日本語を指定(省略で自動検出)
response_format="verbose_json", # タイムスタンプ付き
)
print(transcript.text)
英語への翻訳も、モデルを変えずに呼べます。
# 英語への翻訳(Translation)
with open("japanese_audio.mp3", "rb") as audio_file:
translation = client.audio.translations.create(
model="whisper-1",
file=audio_file,
)
print(translation.text)
25MBを超えるファイルの処理
APIのファイルサイズ上限は25MBです。1時間級の会議音声はこの上限を超えるので、長時間の音声はpydubで分割してから送信します。
from pydub import AudioSegment
audio = AudioSegment.from_file("long_meeting.mp3")
chunk_length_ms = 10 * 60 * 1000 # 10分ごとに分割
chunks = [audio[i:i+chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]
full_text = ""
for i, chunk in enumerate(chunks):
chunk.export(f"/tmp/chunk_{i}.mp3", format="mp3")
with open(f"/tmp/chunk_{i}.mp3", "rb") as f:
result = client.audio.transcriptions.create(
model="whisper-1",
file=f,
language="ja",
)
full_text += result.text + "\n"
print(full_text)
API料金が分かったところで、料金を0円にできるローカル実行に進みます。
Whisperは無料で使える? ローカル実行の始め方(OSS版)
無料で使えます。ローカル実行なら料金は完全に0円。しかもデータがOpenAIのサーバーに送信されないので、プライバシーの観点でも安心です。月に何十時間も文字起こしする人にとっては、これが最大の節約になります。
無料の条件は1つだけ。large系モデルを快適に動かすにはGPUが要ります。GPUがなくてもtiny・baseなら動きますが、実用速度を出すならNVIDIA GPU(VRAM 6GB以上)かApple Silicon搭載Macが現実的です。
前提条件
- Python 3.9〜3.12
- FFmpeg(音声処理に必須)
- GPU推奨(NVIDIA GPU + CUDA、またはApple Silicon)
インストール手順
FFmpegとWhisper本体を入れれば準備完了です。
# 1. FFmpegをインストール
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg
# Windows(Chocolatey)
choco install ffmpeg
# 2. Whisperをインストール
pip install openai-whisper
基本的な使い方
Pythonからモデルを読み込んで実行します。
import whisper
# モデルの読み込み(初回はダウンロードが入る)
model = whisper.load_model("large-v3-turbo")
# 文字起こし
result = model.transcribe(
"meeting.mp3",
language="ja",
fp16=False, # CPU実行時はFalseにする
)
print(result["text"])
# セグメントごとのタイムスタンプも取得可能
for segment in result["segments"]:
print(f"[{segment['start']:.1f}s - {segment['end']:.1f}s] {segment['text']}")
コマンドラインでの使い方
コードを書かず、ターミナルから直接叩くこともできます。
# 基本
whisper audio.mp3 --language ja --model large-v3-turbo
# SRT字幕ファイルを出力
whisper audio.mp3 --language ja --model large-v3-turbo --output_format srt
# 複数ファイルを一括処理
whisper *.mp3 --language ja --model medium --output_dir ./transcripts/
ここまでの整理: Whisperの料金は「API従量課金(whisper-1で$0.006/分)」か「ローカル無料(電気代のみ)」の二択。手軽さならAPI、コスト最優先ならローカルです。ここからは、そのローカルをさらに速くする実装を見ていきます。
高速化ツール比較:faster-whisper / whisper.cpp / mlx-whisper
公式のWhisperは精度は高いものの、推論速度に課題があります。以下のサードパーティ実装を使えば、同じモデル・同じ無料のまま大幅に速くなります。料金はどれも0円なので、ここは速度で選びます。
比較表
環境別のおすすめを一覧にすると、選択は使っているマシンでほぼ決まります。
| 実装 | 言語 | 速度向上 | 特徴 | おすすめ環境 |
|---|---|---|---|---|
| openai-whisper(公式) | Python | 1x(基準) | 公式、安定 | GPU搭載マシン |
| faster-whisper | Python | 最大4倍 | CTranslate2ベース、省メモリ | CUDA GPU |
| whisper.cpp | C++ | 2〜3倍 | CPU最適化、エッジ向け | CPU環境・組み込み |
| mlx-whisper | Python | whisper.cppの2倍 | Apple Silicon最適化 | Mac(M1/M2/M3/M4) |
つまり、NVIDIA GPUならfaster-whisper、Macならmlx-whisper、CPUしかないならwhisper.cppが定石です。
faster-whisperの使い方
CUDA GPUを積んだマシンなら、これが本命です。
pip install faster-whisper
from faster_whisper import WhisperModel
# large-v3-turboモデルをGPUで実行(float16)
model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")
# CPU実行の場合
# model = WhisperModel("large-v3-turbo", device="cpu", compute_type="int8")
segments, info = model.transcribe("meeting.mp3", language="ja", beam_size=5)
print(f"検出言語: {info.language} (確率: {info.language_probability:.2f})")
for segment in segments:
print(f"[{segment.start:.1f}s - {segment.end:.1f}s] {segment.text}")
faster-whisperはメモリ使用量も公式版の半分程度。同じGPUでより大きなモデルが動かせるのが、地味に効きます。
mlx-whisperの使い方(Mac専用)
Apple Silicon搭載のMacなら、mlx-whisperが圧倒的に速いです。
pip install mlx-whisper
コマンドラインでもPythonでも呼べます。
# コマンドラインで実行
mlx_whisper --model mlx-community/whisper-large-v3-turbo audio.mp3
import mlx_whisper
result = mlx_whisper.transcribe(
"meeting.mp3",
path_or_hf_repo="mlx-community/whisper-large-v3-turbo",
)
print(result["text"])
2026年1月のベンチマークでは、mlx-whisperはwhisper.cppの2.03倍高速という結果が出ています。M4 Mac miniなら、1時間の音声を数分で処理できます。しかも料金は0円です。
whisper.cppの使い方
GPUがない環境や、Raspberry PiなどのエッジデバイスにはCPU最適化されたwhisper.cppが向きます。
# ビルド
git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp
cmake -B build && cmake --build build --config Release
# モデルのダウンロード
bash models/download-ggml-model.sh large-v3-turbo
# 実行(WAV形式に変換してから)
ffmpeg -i meeting.mp3 -ar 16000 -ac 1 -c:a pcm_s16le meeting.wav
./build/bin/whisper-cli -m models/ggml-large-v3-turbo.bin -l ja -f meeting.wav
ローカルもAPIも分かったところで、両者の中間にある「ホスティング各社」の料金を比較します。
Groq・各社ホスティングのWhisper料金比較
「ローカルのGPUは持っていないけど、API並みの手軽さで安く回したい」。そういう人には、ホスティング各社という第3の選択肢があります。OSS版Whisperを各社のインフラで動かし、API経由で使える形にしたものです。
なかでもGroqが破格。Groq公式(groq.com/pricing、2026-06-28確認)によれば、Whisper系の料金は次の通りです。
| 提供 | モデル | 料金/時間 | 換算(/分) | リアルタイム |
|---|---|---|---|---|
| OpenAI API | whisper-1 | $0.36 | $0.006 | ✕ |
| OpenAI API | gpt-4o-mini-transcribe | $0.18 | $0.003 | ◯ |
| Groq | distil-whisper | $0.02 | $0.00033 | ✕ |
| Groq | large-v3-turbo | $0.04 | $0.00067 | ✕ |
| Groq | large-v3 | $0.111 | $0.00185 | ✕ |
| Whisperローカル | large-v3-turbo | 無料 | $0 | ✕ |
つまり、ホスティングでコストを削るならGroq一択。large-v3-turboで$0.04/時は、OpenAI API($0.36/時)の約9分の1です。なお全ASRモデルに「1リクエストあたり最低10秒分の課金」がある点は注意(Groq公式)。
Azure・Google CloudもWhisper相当のSTTを提供しています。ただし料金体系が分単位で異なり、エンタープライズ向けの機能(SLA・オンプレ対応)込みの価格設計です。次の競合比較表で、まとめて並べます。
競合サービスとの比較
料金・速度・精度の比較表
Whisper以外の主要STTサービスを、料金と機能で横並びにしたものです。
| サービス | 料金/分 | 月1,000時間コスト | 速度 | 日本語対応 | リアルタイム |
|---|---|---|---|---|---|
| OpenAI Whisper API | $0.006 | $360 | 1x | ◎ | ✕ |
| Deepgram Nova-3 | $0.0043 | $258 | 30x | ○ | ◎ |
| Google Cloud STT v2 | $0.016 | $960 | 5x | ◎ | ◎ |
| AWS Transcribe | $0.024 | $1,440 | 2x | ○ | ○ |
| ElevenLabs Scribe | $0.006 | $360 | 高速 | ○ | ✕ |
| Whisperローカル | 無料 | $0 | GPU依存 | ◎ | ✕ |
数字を見れば一目瞭然。月1,000時間を回すなら、ローカル実行の$0が圧倒的です。クラウドの手軽さを取るなら、Deepgramが安い。
どれを選ぶべきか
用途別に整理すると、迷うポイントはほぼ消えます。
コスト最優先 → Whisperをローカル実行(無料)、ホスティングならGroq(large-v3-turbo $0.04/時)
API手軽さ重視 → OpenAI Whisper API。5行のコードで動く
リアルタイム文字起こし → DeepgramかGoogle Cloud STT。Whisperはバッチ処理専用
日本語の専門用語精度 → Google Cloud STTが住所・固有名詞に強い。カスタム辞書にも対応
エンタープライズ・セキュリティ → Azure Speech Services。カスタムモデル・オンプレ対応あり
「コードは書きたくない、すぐ使えるツールがいい」という人は、ツールから探すほうが近道です。Whisperを内部エンジンに採用したものも多いので、まずAI文字起こしツール比較を眺めると選択肢が一気に絞れます。無料枠から探すなら無料の文字起こしツールおすすめ、会議用途に絞るならAI議事録ツールのおすすめ、日本語特化ならRimo Voice完全ガイドが候補になります。音声系ツール全般はai-voiceカテゴリから横断して探せます。
実践的なユースケース
1. 会議の議事録作成
無音区間を自動でスキップしつつ、Markdownの議事録に落とす例です。
from faster_whisper import WhisperModel
model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")
segments, info = model.transcribe(
"meeting_2026-04-03.mp3",
language="ja",
beam_size=5,
vad_filter=True, # 無音区間を自動スキップ
vad_parameters=dict(min_silence_duration_ms=500),
)
# Markdown形式で出力
with open("minutes.md", "w") as f:
f.write("# 議事録\n\n")
for seg in segments:
minutes = int(seg.start // 60)
seconds = int(seg.start % 60)
f.write(f"<strong>[{minutes:02d}:{seconds:02d}]</strong> {seg.text}\n\n")
2. YouTube動画の字幕生成(SRT形式)
yt-dlpで音声を抜き、Whisperで字幕化する2コマンドです。
# yt-dlpで音声をダウンロード
yt-dlp -x --audio-format mp3 "https://www.youtube.com/watch?v=XXXXX" -o audio.mp3
# Whisperで字幕生成
whisper audio.mp3 --language ja --model large-v3-turbo --output_format srt
3. Podcastのテキスト化と要約
文字起こしからChatGPT要約まで、一気通貫でつなぐ例です。
from faster_whisper import WhisperModel
from openai import OpenAI
# Step 1: 文字起こし
whisper_model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")
segments, _ = whisper_model.transcribe("podcast.mp3", language="ja")
full_text = " ".join([seg.text for seg in segments])
# Step 2: ChatGPTで要約
client = OpenAI()
summary = client.chat.completions.create(
model="gpt-4o-mini",
messages=[
{"role": "system", "content": "以下のPodcast文字起こしを、要点を箇条書きで要約してください。"},
{"role": "user", "content": full_text}
]
)
print(summary.choices[0].message.content)
編集部の評価
文字起こしAIは「精度」「コスト」「導入のしやすさ」で評価が分かれます。Whisperを軸に、公開情報から率直に評価しました。
公開情報からの比較整理
主要な実装を料金・環境・向き不向きで並べると、こうなります。
| 項目 | OpenAI API (Whisper) | ローカルlarge-v3 | faster-whisper | mlx-whisper |
|---|---|---|---|---|
| 料金 | $0.006/分 | 電気代のみ | 電気代のみ | 電気代のみ |
| 実行環境 | クラウド | GPU 10GB目安 | GPU/CPU両対応 | Apple Silicon専用 |
| 日本語対応 | ◯ | ◯ (最高精度) | ◯ | ◯ |
| 商用利用 | OpenAI利用規約に準拠 | MITライセンス | MITライセンス | MITライセンス |
| 向くケース | 試作・小規模 | 高精度・機密データ | サーバー本番運用 | Macローカル |
※ 料金・仕様は2026-06-28時点の公開情報。最新は各公式ドキュメントを参照。
編集部の総合判断
公開情報をもとに、率直な評価を。
- OpenAI API: とりあえず試したい個人・小規模チームには一択。コード数行・1時間で約54円なら、検討の余地なし
- Groqホスティング: 大量に安く回すなら破格。large-v3-turboで$0.04/時はOpenAI APIの約9分の1で、地味に効く
- faster-whisper(ローカル): 機密音声を扱う企業に重宝します。クラウドにデータを出さず、コストも電気代に収まる
- mlx-whisper: Macユーザーには頭ひとつ抜けた処理速度。ローカル完結・無料で、字幕作成・議事録に最適
- 正直イマイチな点: 標準では話者分離もリアルタイムも非対応。ここが必要ならDeepgram・Google STTのほうがいい
よくある質問(FAQ)
Q. Whisperは完全に無料で使えますか?
ローカル実行なら完全無料です。オープンソース(MITライセンス)なので、商用利用も問題ありません。APIを使う場合は$0.006/分(約0.9円/分)の従量課金になります(2026-06-28時点)。
Q. Whisperの料金を一番安く抑える方法は?
自前のGPUがあれば、ローカル実行で0円が最安です。GPUがない場合は、Groqのホスティング(large-v3-turboで$0.04/時、2026-06-28時点 groq.com)がOpenAI API($0.36/時)の約9分の1で、API手軽さと低コストを両立できます。
Q. whisper-1とgpt-4o-transcribeで料金は違いますか?
OpenAI公式(2026-06-28確認)によれば、whisper-1とgpt-4o-transcribeはどちらも$0.006/分。さらに軽量なgpt-4o-mini-transcribeは$0.003/分と半額です。最新の価格は公式価格表で確認してください。
Q. GPUがなくてもWhisperは動きますか?
動きます。ただしCPUだと処理速度が大幅に遅くなります。tinyやbaseモデルならCPUでも実用的ですが、large系のモデルはGPUを強く推奨します。Apple Silicon搭載のMacなら、mlx-whisperで高速に動作します。
Q. Whisperはリアルタイムの音声認識に対応していますか?
標準のWhisperはバッチ処理(録音済みファイルの処理)専用です。リアルタイム文字起こしが必要な場合は、WhisperLiveやwhisper_streamingなどのラッパーライブラリを使うか、OpenAIのRealtime API、DeepgramやGoogle Cloud STTを検討してください。
Q. 日本語の文字起こし精度はどのくらいですか?
クリアな音声であれば実用的な精度です。CER(文字の誤り率)は一般的な会話で4〜5%程度。ただし固有名詞や専門用語は誤認識が起きやすいため、initial_promptで用語リストを渡すか、事後の校正を組み合わせるのがおすすめです。
Q. large-v3とlarge-v3-turboはどちらを選ぶべきですか?
ほとんどのケースでlarge-v3-turboが最適です。精度差はわずか1〜2%で、処理速度は6倍高速。VRAM要件も10GB→6GBに下がります。ただし翻訳タスク(他言語→英語)にはturboは不向きで、large-v3やmediumのほうが正確です。
Q. Whisperで話者分離(スピーカーダイアリゼーション)はできますか?
Whisper単体では対応していません。pyannote-audioなどの話者分離ライブラリと組み合わせることで実現できます。faster-whisperにはvad_filter(音声区間検出)が組み込まれており、無音区間のスキップは可能です。
あわせて読みたい
- 【2026年最新】ElevenLabsの使い方完全ガイド|料金・音声クローン・日本語対応を徹底解説
- 【2026年最新】AI文字起こしツールおすすめ7選|無料・有料を徹底比較
- 【2026年最新】AI要約ツールおすすめ10選|PDF・動画・文章を無料で要約する方法
次に読むならこれ。Whisperを内部エンジンに使うツールも含めて「結局どれが自分に合うか」を選びたいなら、AI文字起こしツール比較へ。無料・有料を横並びにしてあるので、料金の話がそのまま製品選びに直結します。
