Deepgramとは

Deepgramは、開発者向けに音声文字起こし(Speech-to-Text)と音声合成(Text-to-Speech)のAPIを提供する音声AIプラットフォーム。最新モデル「Nova-3」では英語精度・低レイテンシ・多言語対応が一段進化し、リアルタイム書き起こしから議事録自動化、コールセンターの通話解析、音声エージェント構築まで、API一本で幅広く対応する。自社プロダクトに音声機能を組み込みたいSaaS開発チームや、コールログを大量処理したい企業のデータ基盤向けに最適化されている。

主要機能

  1. リアルタイム文字起こし: WebSocket経由でストリーミング転送し、平均レイテンシ300ms以下で逐次テキスト化。コールセンターのライブ字幕や音声エージェントの相づち生成に直結する。
  2. バッチ書き起こし: 60分の録音を1〜2分で処理。従来Whisper Large-v2で15〜20分かかっていたワークロードを約1/10に短縮できる試算。
  3. 話者分離・感情分析・要約: ダイアライゼーションで発話者ごとに分割し、Intentや感情ラベルを付与。1時間の商談ログから「決裁者発言」「ネガティブ反応」を自動抽出できる。
  4. Text-to-Speech (Aura): 低遅延の自然な合成音声をAPI 1コールで生成。IVRや音声Botの応答生成に組み込める。

編集部の検証メモ

公開料金プランを比較分析したところ、Nova-3のバッチ書き起こしは$0.0043/分(約$0.26/時)、ストリーミングは$0.0077/分。OpenAI Whisper API($6.00/1000分)の約1/14、Google STT($16.00/1000分)の約1/37という水準で、月10,000時間の通話ログを処理する想定だとWhisper比で月額約58万円相当のコスト圧縮になる試算だ。さらにNova-3はWord Error Rate(WER)の公開ベンチマーク上でWhisperを下回るとされ、価格×精度×レイテンシの3軸で開発者向けSTT市場の優位性が際立つ。日本語精度はNova-2世代から大きく改善しているが、Azure Speechや国産STTと並べてPoCする価値は十分ある。

想定ユーザー

音声機能をプロダクトに組み込みたいSaaS/AIエージェント開発者、コールセンターの数千時間規模の通話ログを低コストで解析したいCX・SalesOps部門に強く向く。一方で管理画面が英語中心かつAPI前提のため、コードを書かない現場担当者や、日本語の単発議事録ツールを探す層にはAmiVoiceなど国産SaaSのほうが導入しやすい。