Deepgramの料金と使い方｜無料$200枠・Nova-3が$0.0043/分から (2026年版)

Q: 1時間の音声を文字起こしすると、いくらかかりますか

Nova-3のプリレコードなら**約$0.258**（$0.0043 × 60分）です。リアルタイムのストリーミングだと約$0.46になります。

Q: Nova-2とNova-3、どちらを使うべきですか

**Nova-3が無難です。**精度が伸びており、旧モデルに留める積極的な理由は、特殊な互換要件がない限り見当たりません。単価差は公式の料金ページで確認してください。

Deepgramの料金と使い方｜無料$200枠・Nova-3が$0.0043/分から (2026年版)

Deepgramの料金と使い方｜無料$200枠・Nova-3が$0.0043/分から

この記事のポイント Deepgramの料金はNova-3のプリレコードが$0.0043/分、ストリーミングが$0.0077/分。登録だけで$200の無料クレジットが付きます。日本語対応の実態、PythonでAPIキーを取って文字起こしするまでの手順、AssemblyAIやWhisperとの選び分けを2026年7月時点の公開情報でまとめました。

音声認識のAPIを選ぼうとして、公式の料金ページを開いた瞬間に手が止まった。そんな人は多いはずです。モデル名が3つ、課金単位が2つ、プランが2段。どこを見れば自分の請求額がわかるのか、書いていないからです。

Deepgramとは、音声をテキストに変換するSTT、テキストを音声に変換するTTS、その両方をつないだ対話エージェントを1つのAPIで提供する音声AIプラットフォームです。課金は固定の月額ではなく、使った分数（TTSは文字数）に単価を掛けた従量制で決まります。

先に答えを出します。Deepgramは「録音済みの音声を後から文字起こしするなら$0.0043/分、リアルタイムで流し込むなら$0.0077/分」。この2つだけ覚えれば、月額の見当は9割つきます。そして登録するだけで$200のクレジットが付くので、見当が合っているかは自腹を切らずに確かめられます。

以下、料金の読み方から実装、他社との選び分けまで順に見ていきます。

30秒でわかるDeepgramの結論

Deepgramを検討している人が最初に知りたい数字だけ、先に並べておきます。

項目	内容
無料枠	登録時に$200のクレジット（クレジットカード登録なし）
Nova-3プリレコード	$0.0043/分（$0.258/時間）
Nova-3ストリーミング	$0.0077/分（約$0.46/時間）
Growthプラン	ストリーミングが$0.0065/分まで下がる
対応言語	45言語以上
レイテンシ	ストリーミングで300ms以下
日本語	STT・TTSとも対応済み

つまり、1時間の会議録音を後から文字起こしするなら約$0.26。無料の$200は、その計算だと約770時間分にあたります。個人開発なら、正直しばらく請求書は来ません。

Deepgram無料プランあり

Deepgramは、音声データを高精度に文字起こしし、読み上げや音声エージェント構築まで扱える開発者向けVoice AI APIです。リアルタイム音声ストリームと録音ファイルの文字起こしに対応し、会話向けモデルでは発話の区切り検出や割り込み処理を組み込めます。Text-to-Speech、Speech-to-Text、LLM連携をまとめたVoice Agent APIにより、通話対応、ライブ字幕、会話分析、エージェント支援へ実装できます。音声機能を自社プロダクトへ低遅延で組み込みたい開発チームや企業に向いています。

2.56/5.00

詳細を見る →

Deepgramは「聞く・喋る・会話する」が1つで揃うAPI

Deepgramは2015年創業、米国サンフランシスコ発の音声AI企業です。文字起こし専業のサービスと違い、APIがカバーする範囲が広いのが特徴。

役割は3つに分かれます。

STT（音声→テキスト）: Nova-3 / Nova-2。文字起こしとリアルタイム認識
TTS（テキスト→音声）: Aura-2。読み上げ、ナレーション生成
Voice Agent API: 聞き取りと発話をつないだ対話エージェント

STTは「speech-to-text」、つまり音声を文字にする仕組みのこと。TTSはその逆で、文字を音声に変えます。この2つを別々のベンダーで組むと、レイテンシ（応答までの遅れ）が両方に乗って会話が不自然になりがち。Deepgramは同じアカウント・同じ課金体系で両方を賄えます。ここが地味に効きます。

音声AI全体の勢力図を先に眺めておきたいなら、AI音声ツールのランキングやAI音声カテゴリの一覧を見ておくと、この記事の後半の比較が早く飲み込めます。

選ばれている理由は、結局レイテンシ

Nova-3のストリーミング認識は300ms以下を公称しています。0.3秒。人が「間があいたな」と感じ始める手前です。

コールセンターのリアルタイム支援、ライブ配信の字幕、音声アシスタント。この手の用途では、精度が数%高いことより、この0.3秒のほうが体感品質を決めます。バッチ処理で十分な用途なら、正直この強みは効きません。逆に言えば、リアルタイムが要らないならDeepgramを選ぶ理由は半分になるということでもあります。

Deepgramの料金はいくら？読み方は4つの掛け算だけ

Deepgramの料金表がややこしく見えるのは、軸が複数あるからです。分解すると単純です。

課金額は「単価 × 使った分数」。固定の月額はありません。単価が変わる軸が3つあります。

モデル: Nova-3（最新）かNova-2（旧・現役）か
処理方式: プリレコード（録音済みをまとめて）かストリーミング（リアルタイム）か
プラン: Pay As You Go（$0スタート）かGrowth（月額を払って単価を下げる）か

この3つの組み合わせで単価が決まります。2026年時点で押さえるべき代表値がこちら。

構成	単価
Nova-3プリレコード	$0.0043/分
Nova-3ストリーミング（Pay As You Go）	$0.0077/分
Nova-3ストリーミング（Growth）	$0.0065/分

つまり、同じNova-3でもリアルタイムにした瞬間に単価が約1.8倍。ここが最大の分岐点です。

見落としやすい罠: 「とりあえずストリーミングで作る」と、後から請求額が想定の倍近くになります。ユーザーが結果を見るのが数秒後でいいなら、プリレコードで十分。この判断を実装前にやるかどうかで、月のコストが変わります。

Growthプランはいつ元が取れるか

Growthは月額を払って単価を下げるプランです。ストリーミングで$0.0077→$0.0065なら、差は$0.0012/分。

損益分岐は「月額 ÷ $0.0012」で出ます。月に数万分（数百時間）を流すなら検討の価値がありますが、それ未満ならPay As You Goのままが一択です。最新の月額はDeepgram公式の料金ページで確認してください。

話者識別とTTSは別勘定

「誰が話したか」を分ける話者識別（Speaker Diarization）は、文字起こし料金にアドオン単価が上乗せされます。プランによって加算額が変わるので、議事録用途で使うなら見積もりに必ず含めてください。

TTSのAura-2は課金単位が変わり、分ではなく文字数（1,000文字あたり）です。Aura-1とAura-2で単価が違い、上位のAura-2が高い。STTと同じ感覚で見積もると外します。

無料$200クレジットで何ができる？

Deepgramの一番わかりやすい強みが、ここです。

登録時に$200のクレジットが付き、クレジットカードの登録は不要。Nova-3のプリレコード換算なら約46,500分、時間にして約770時間分です。

具体的に何ができるか。

1時間の会議録音を約770本
10分のポッドキャストを約4,600本
ストリーミング（$0.0077/分）でも約430時間

個人の検証やプロトタイプなら、まず使い切れません。競合の無料枠が「数時間分」で終わることを考えると、破格です。カード登録なしで試せるのも心理的にでかい。他社の無料枠がどこまで使えるかは無料の文字起こしツールまとめと並べると差が見えます。

ただし1点。クレジットには有効期限が設定される場合があります。「登録だけしておいて半年後に使う」は避けたほうが無難です。

Deepgramの日本語の精度はどれくらい？「使えるが、英語ほどではない」

日本語対応はSTT・TTSとも済んでいます。Nova-3は45言語以上をカバーし、その中に日本語が含まれます。

ただ、率直に言えば英語との差はあります。Deepgramに限らず、海外発の音声認識APIは英語データで最も鍛えられているので、これは構造的な話。日本語の固有名詞、業界用語、社名あたりで取りこぼしが出ます。

対策は2つ。

キータームプロンプティングを使うこと。認識させたい固有名詞をAPIのパラメータで事前に渡す機能です。「弊社のサービス名」「担当者の名字」といった、モデルが知らないはずの語を先に教えておくと、精度が目に見えて変わります。

もうひとつはスマートフォーマット。句読点や数字表記を自動で整えるオプションで、生の認識結果をそのまま人に見せるなら、ほぼ必須です。

日本語の議事録が主用途で、精度が最優先。そういう要件なら、Deepgram単体で決め打ちせず、Nottaのような日本語特化のサービスと並べて比較してください。候補の全体像はAI文字起こしツールの比較にまとめてあります。逆にリアルタイム性が要る、多言語を扱う、コストを抑えたい。この3つのどれかが効くなら、Deepgramは十分に候補に残ります。

PythonでAPIキー取得から最初の文字起こしまで

ここからは実装です。慣れていれば10分かかりません。

1. APIキーを取る

Deepgramのコンソールにサインアップすると、$200のクレジットとともにAPIキーが発行されます。キーは発行時にしか全文が表示されないので、その場で控えてください。

キーはコードに直接書かないこと。環境変数に置きます。

export DEEPGRAM_API_KEY="your_api_key_here"

2. SDKを入れる

pip install deepgram-sdk

3. 録音済みファイルを文字起こしする

import os
from deepgram import DeepgramClient, PrerecordedOptions, FileSource

deepgram = DeepgramClient(os.environ["DEEPGRAM_API_KEY"])

with open("meeting.mp3", "rb") as f:
    payload: FileSource = {"buffer": f.read()}

options = PrerecordedOptions(
    model="nova-3",
    language="ja",
    smart_format=True,   # 句読点・数字表記を整える
    diarize=True,        # 話者を分ける（追加課金あり）
)

response = deepgram.listen.prerecorded.v("1").transcribe_file(payload, options)
print(response.results.channels[0].alternatives[0].transcript)

要点はoptionsの中身だけです。modelでNova-3を指定し、language="ja"で日本語を明示。smart_formatは基本オンでいい。diarizeは課金が乗るので、話者を分ける必要がないならオフにしてください。

4. URLから直接読ませる

ファイルをアップロードせず、公開URLを渡すこともできます。S3やR2に置いた音声をそのまま投げられるので、実務ではこちらが多いはず。

source = {"url": "https://example.com/audio/meeting.mp3"}
response = deepgram.listen.prerecorded.v("1").transcribe_url(source, options)

5. リアルタイムで流し込む

ストリーミングはWebSocketで接続します。マイク入力やSIPの音声を流し込み、確定した文節が返るたびにコールバックが呼ばれる形。

課金は$0.0077/分。接続している時間ではなく、送った音声の分数で計算されます。無音を延々と流し続ければその分も課金対象になるので、VAD（音声が鳴っているかを検知する仕組み）で送信を絞ると効きます。ここ、後から効いてくる節約ポイント。

AssemblyAI・Whisper・Google・Rev AIとどう選び分ける？

音声認識APIの主要な選択肢は4つ。用途で答えが変わります。

候補	向いている場面
Deepgram	リアルタイム性が要る。多言語。STTとTTSを1本で揃えたい
AssemblyAI	要約・話題抽出など、文字起こしの先の分析まで欲しい
OpenAI Whisper	自前サーバーで回したい。データを外に出せない
Google Cloud Speech	すでにGCPで組んでいる。IAMや請求を寄せたい
Rev AI	人力の書き起こしとハイブリッドで精度を詰めたい

判断の軸をひとつだけ挙げるなら、「300msが要るか」です。

要るならDeepgram。要らないなら、他社との差は縮まります。特にWhisperは自分のサーバーで動かせるので、音声を外部に送れない案件では選択肢が事実上これ一択になります。セルフホストの手順はWhisperの使い方ガイドに切り出してあります。ただしGPUの用意と運用が自分持ちになるぶん、「安い」かどうかは規模次第。月に数十時間しか回さないなら、DeepgramにAPIで投げたほうが総額は安く済みます。

コンプライアンス要件（HIPAAやSOC 2など）を満たす必要がある場合、各社ともアドオンや上位プランの扱いになることが多い。この手の要件があるなら、単価表の比較だけで決めないでください。見えていない乗数がそこに隠れています。

ここまでの整理: 料金は「プリレコード$0.0043/分・ストリーミング$0.0077/分」の2択。日本語は使えるが英語ほどではなく、キータームで補う。他社との分岐点は300msのレイテンシが要るかどうか。ここまで押さえたら、あとは無料$200で自分の音声を投げてみるのが最短です。

つまずきやすい4つのポイント

公開情報とドキュメントを読み込んだうえで、事前に知っておくと得をする箇所を挙げます。

1. ストリーミングとプリレコードの単価差を忘れる

繰り返しますが、約1.8倍です。設計段階で決めてください。

2. 話者識別のアドオンを見積もりに入れ忘れる

議事録用途だとまずdiarize=Trueにするので、実質の単価は表の値より上がります。

3. TTSの課金単位が文字数

STTと同じ「分」で計算すると、TTSの見積もりが丸ごとずれます。

4. 日本語でlanguageを指定し忘れる

自動言語検出は便利ですが、日本語だとわかっているならlanguage="ja"を明示したほうが安定します。

編集部の評価

公開されている料金と仕様を突き合わせた率直な見立てを書きます。

強いところ。 無料$200は圧倒的です。競合が数時間分の無料枠で止まるなか、770時間分をカード登録なしで配る。この時点で「とりあえず試す」のハードルがほぼゼロになります。加えて300ms以下のレイテンシとSDKの整備。リアルタイム音声を扱う開発者にとっては重宝します。

弱いところ。 日本語の精度は正直、英語ほどのキレはありません。日本語の議事録だけが目的で、固有名詞の取りこぼしが致命的になる業務なら、キータームで補えるかを無料枠のうちに必ず検証すべきです。ここを試さずに本番へ持っていくのは微妙。

結論。 リアルタイム音声を扱うプロダクトを作るなら一択に近い。バッチの文字起こしだけが目的なら、他社と並べて精度を比べる価値があります。どちらにせよ、$200を使い切る前に答えは出ます。

よくある質問（FAQ）

Q. Deepgramは無料で使えますか

登録するだけで$200のクレジットが付き、クレジットカードの登録は不要です。Nova-3のプリレコード換算で約46,500分、時間にすると約770時間分。個人の検証なら、まず使い切れません。

Q. 1時間の音声を文字起こしすると、いくらかかりますか

Nova-3のプリレコードなら約$0.258（$0.0043 × 60分）です。リアルタイムのストリーミングだと約$0.46になります。

Q. Nova-2とNova-3、どちらを使うべきですか

Nova-3が無難です。精度が伸びており、旧モデルに留める積極的な理由は、特殊な互換要件がない限り見当たりません。単価差は公式の料金ページで確認してください。

Q. 日本語の精度はどれくらいですか

実用レベルですが、英語よりは落ちます。固有名詞や業界用語の取りこぼしが出やすいので、キータームプロンプティング（認識させたい語を事前にAPIへ渡す機能）で補うのが前提だと考えてください。日本語重視ならNottaのような国産サービスも並べてください。

Q. ストリーミングの課金は接続時間ですか、音声の長さですか

送った音声の分数です。無音を流し続けるとその分も乗るので、音声を検知したときだけ送る作りにするとコストが下がります。

Q. Whisperを自前で動かすのと、どちらが安いですか

規模次第です。月に数十時間ならDeepgramにAPIで投げたほうが総額は安くなります。GPUを常時走らせる前提のボリュームがあるか、音声を外部に出せない要件があるなら、Whisperの自前運用に分があります。

次に読むならこれ

音声AIの選択肢をDeepgram以外もまとめて見比べたいなら、AI音声ツールのランキングへ。この記事で触れた「リアルタイムが要るか」という軸で眺めると、候補が一気に絞れます。用途別に整理したい場合はAI音声ツールの比較記事もあわせてどうぞ。

Deepgramの料金と使い方｜無料$200枠・Nova-3が$0.0043/分から (2026年版)

Deepgramの料金と使い方｜無料$200枠・Nova-3が$0.0043/分から

30秒でわかるDeepgramの結論

Deepgramは「聞く・喋る・会話する」が1つで揃うAPI

選ばれている理由は、結局レイテンシ

Deepgramの料金はいくら？読み方は4つの掛け算だけ

Growthプランはいつ元が取れるか

話者識別とTTSは別勘定

無料$200クレジットで何ができる？

Deepgramの日本語の精度はどれくらい？「使えるが、英語ほどではない」

PythonでAPIキー取得から最初の文字起こしまで

1. APIキーを取る

2. SDKを入れる

3. 録音済みファイルを文字起こしする

4. URLから直接読ませる

5. リアルタイムで流し込む

AssemblyAI・Whisper・Google・Rev AIとどう選び分ける？

つまずきやすい4つのポイント

編集部の評価

よくある質問（FAQ）

Q. Deepgramは無料で使えますか

Q. 1時間の音声を文字起こしすると、いくらかかりますか

Q. Nova-2とNova-3、どちらを使うべきですか

Q. 日本語の精度はどれくらいですか

Q. ストリーミングの課金は接続時間ですか、音声の長さですか

Q. Whisperを自前で動かすのと、どちらが安いですか

次に読むならこれ

失敗しない AIツール選定チェックリスト 2026

編集部の検証ノート

Yuto Suzuki

今日の動き

急上昇

新着ツール

関連記事

AIエージェントおすすめ10選と選び方｜生成AIとの違いから料金相場まで一気にわかる (2026年版)

生成AIとは？5つの種類と30ツール比較でわかる選び方 (2026年版)

SeaArt（シーアート）の使い方・料金・商用利用まで完全ガイド（2026年版）

Deepgramの料金と使い方｜無料$200枠・Nova-3が$0.0043/分から

30秒でわかるDeepgramの結論

Deepgramは「聞く・喋る・会話する」が1つで揃うAPI

選ばれている理由は、結局レイテンシ

Deepgramの料金はいくら？読み方は4つの掛け算だけ

Growthプランはいつ元が取れるか

話者識別とTTSは別勘定

無料$200クレジットで何ができる？

Deepgramの日本語の精度はどれくらい？「使えるが、英語ほどではない」

PythonでAPIキー取得から最初の文字起こしまで

1. APIキーを取る

2. SDKを入れる

3. 録音済みファイルを文字起こしする

4. URLから直接読ませる

5. リアルタイムで流し込む

AssemblyAI・Whisper・Google・Rev AIとどう選び分ける？

つまずきやすい4つのポイント

編集部の評価

よくある質問（FAQ）

Q. Deepgramは無料で使えますか

Q. 1時間の音声を文字起こしすると、いくらかかりますか

Q. Nova-2とNova-3、どちらを使うべきですか

Q. 日本語の精度はどれくらいですか

Q. ストリーミングの課金は接続時間ですか、音声の長さですか

Q. Whisperを自前で動かすのと、どちらが安いですか

次に読むならこれ

失敗しない AIツール選定 チェックリスト 2026

編集部の検証ノート

Yuto Suzuki

今日の動き

急上昇

新着ツール

関連記事

AIエージェントおすすめ10選と選び方｜生成AIとの違いから料金相場まで一気にわかる (2026年版)

生成AIとは？5つの種類と30ツール比較でわかる選び方 (2026年版)

SeaArt（シーアート）の使い方・料金・商用利用まで完全ガイド（2026年版）

失敗しない AIツール選定チェックリスト 2026