Whisperとは
WhisperはOpenAIが公開している音声認識モデル。英語・日本語を含む99言語の文字起こしと、非英語音声から英語への翻訳を一つのモデルで担う。68万時間規模の多言語データで学習されており、雑音や訛り、専門用語が混じる音声でも崩れにくい。会議の議事録化、インタビュー素材の文字起こし、動画字幕の初稿生成、コールログの検索可能化など、「音声を構造化テキストに変えて次の処理へ渡す」業務基盤として広く採用されている。
主要機能
- 多言語文字起こし: 99言語に対応。日本語音声をそのまま日本語テキスト化でき、60分の会議録音が数分〜十数分でドラフト化される。手作業で3〜4時間かかる工程を大幅に圧縮できる。
- 音声翻訳: 日本語・中国語・スペイン語などの音声を直接英語テキストへ変換。海外拠点ミーティングの議事録を英語で残す用途に向く。
- タイムスタンプ付き出力: SRT/VTT形式で字幕ファイルを直接書き出せるため、YouTubeや社内動画の字幕制作を編集ツールへそのまま流し込める。
- 2つの提供形態: モデル重みがMITライセンスで公開されており、自前GPUでのオンプレ運用が可能。手軽に試したい場合はOpenAI APIのwhisper-1が $0.006/分 で利用でき、PoCコストが極めて低い。
編集部の検証メモ
公開料金と機能要件を競合と比較すると、APIは $0.006/分(1時間あたり約$0.36) で、Google Speech-to-TextやAzure Speechの汎用プラン($0.016〜0.024/分)に対して 1/3〜1/4の単価 に収まる。月100時間の会議文字起こしで概算$36。人手外注(1時間あたり1〜2万円)と比べると時間・コストを2桁圧縮できる試算になる。差別化のポイントは「モデル重みが完全オープン」であること。機密音声を外部に出せない金融・医療・法務領域ではlarge-v3をオンプレで回す選択肢が取れる。一方、OpenAI APIには25MB/ファイルの上限があり、長尺会議はチャンク分割の前処理が前提になる。
想定ユーザー
向いているのは、議事録・字幕・コールログを大量に扱う情報システム部門、メディア・教育コンテンツの制作者、そして音声機能を組み込みたい開発者。逆に、リアルタイム文字起こしUIや話者分離をノーコードで完結させたいビジネス職には、Whisper単体だと組み立てる工程が多い。NottaやtldvなどのSaaSラッパーを検討したほうが早い。


