Deepgram完全ガイド2026

【2026年最新】Deepgram完全ガイド|使い方・料金・Nova-3の始め方を徹底解説

「音声認識APIを使いたいけど、どれが一番安くて精度が高いの?」——その答えがDeepgramです。

Deepgramは音声認識(STT)・音声合成(TTS)・ボイスエージェントAPIを提供するAI音声プラットフォームです。2026年現在、最新モデル「Nova-3」は45以上の言語に対応し、ストリーミング認識のレイテンシは300ms以下を実現。料金も従量課金で$0.0043/分(Nova-3 プリレコード)と、競合の中でコスパが高い選択肢です。

この記事では、Deepgramの料金体系からPython APIの実装手順、AssemblyAI・Whisperとの比較まで、2026年4月時点の最新情報をまとめます。

この記事でわかること

  • Deepgramの2026年最新料金プラン(Nova-3・Voice Agent・TTSの具体的な単価)
  • APIキー取得から最初の文字起こしまでの実装手順(Python/JavaScript)
  • AssemblyAI・OpenAI Whisper・Google Cloud Speechとの比較
  • 日本語対応の実態と注意点
  • 無料枠$200の具体的な使い方

30秒で結論

  • 無料枠: サインアップで$200分のクレジット付与(プリレコード換算で約46,500分)
  • Nova-3 プリレコード: $0.0043/分($0.258/時間)
  • Nova-3 ストリーミング: $0.0077/分($0.462/時間)
  • 日本語対応: STT・TTSとも対応済み(精度は英語より若干低め)
  • 最大の強み: レイテンシの低さとAPIの使いやすさ

Deepgramとは?音声AIプラットフォームの全体像

Deepgramプラットフォーム概要

Deepgramは2015年創業の米国サンフランシスコ発の音声AI企業です。2026年現在、同社のAPIは世界中の企業・開発者に採用されており、IBMとのエンタープライズ向け音声AI連携(2026年2月発表)も話題になりました。

DeepgramのAPIは大きく3つの領域をカバーしています。

機能 モデル名 用途
STT(音声→テキスト) Nova-3 / Nova-2 文字起こし、リアルタイム音声認識
TTS(テキスト→音声) Aura-2 音声読み上げ、ナレーション生成
Voice Agent API Voicebot 対話型音声エージェント構築

Deepgramが選ばれる3つの理由

1. 低レイテンシ Nova-3のストリーミング認識は300ms以下を公称。リアルタイム字幕やボイスアシスタントで実用的に使えるレベルです。コールセンター向けAIや音声インターフェース開発では、このレイテンシが決定的な差を生みます。

2. 開発しやすいSDK Python・JavaScript・Go・Ruby・Rust・.NETなど主要言語のSDKが揃っています。ドキュメントも充実しており、APIキー取得から最初の文字起こしまで5分以内に完了できます。

3. 柔軟な機能オプション 話者識別(Speaker Diarization)、スマートフォーマット、キータームプロンプティング、自動言語検出など、単なる文字起こし以上の機能をAPIオプションで簡単に追加できます。

Deepgramの料金プラン【2026年4月最新】

STT(音声認識)料金

Deepgramの価格設定はシンプルな従量課金です。基本的に「1分あたりの単価 × 使用分数」で計算します。

Nova-3(最新モデル)

処理タイプ 単価 換算
プリレコード(バッチ) $0.0043/分 約¥0.65/分
ストリーミング(リアルタイム) $0.0077/分 約¥1.15/分

Nova-2(旧モデル・現役)

処理タイプ 単価
プリレコード $0.0043/分
ストリーミング $0.0077/分

📌 ポイント: Nova-3とNova-2は同価格。精度が上がったNova-3を使わない理由はない。

話者識別(Speaker Diarization)の追加料金

話者分離機能を使う場合は、通常の文字起こし料金に約$0.0015/分が加算されます。1時間の会議録音に話者識別を適用した場合、追加コストは約$0.09(約¥13)です。

TTS(音声合成)料金 — Aura-2

テキスト読み上げのAura-2は文字数(Characters)課金です。

モデル 料金
Aura-2 $0.015/1,000文字

1万文字(日本語の一般的なブログ記事2〜3本分程度)で$0.15(約¥22)です。

Voice Agent API料金

対話型ボイスエージェントを構築する場合の料金です。

プラン 料金 特徴
Standard LLM + STT + TTS $0.048/分 Deepgram内蔵LLM使用
Custom BYO LLM $0.056/分 自前のLLMを組み込む場合
Custom BYO LLM + TTS $0.050/分 LLMとTTSを外部から持ち込む場合

無料枠の詳細

サインアップで付与される$200クレジットの内訳イメージ:

用途 $200での利用可能量
Nova-3 プリレコード 約46,500分(約775時間)
Nova-3 ストリーミング 約25,974分(約433時間)
Aura-2 TTS 約13,333,000文字

クレジットに期限はなく、使い切るまで有効です。クレジットカード登録も不要なため、まずは無料で試してから判断できます。

Growth Plan(年間契約)

月間150時間以上の大規模利用を予定している場合、Growth Planがあります。

  • ストリーミング: $0.0065/分(PAYG比約15%割引)
  • 年間契約のみ・詳細は営業窓口へ

APIキーの取得手順

APIキー取得からテスト実行まで、実際の操作手順を追います。

STEP 1: アカウント作成

  1. deepgram.com にアクセス
  2. 「Start for free」→ メールアドレスまたはGoogleアカウントでサインアップ
  3. メール認証後、ダッシュボードへ

STEP 2: APIキー発行

ダッシュボードの「API Keys」→「Create a New API Key」をクリック。

  • Name: 任意のキー名を入力(例: my-project-key
  • Permissions: 用途に応じて選択(Member / Administrator)

「Create Key」を押すと、APIキーが表示されます。この画面でコピーすること(再表示不可)

STEP 3: 環境変数への設定

# .env または .bashrc に追記
export DEEPGRAM_API_KEY="your_api_key_here"
# Pythonでの読み込み
import os
api_key = os.environ.get("DEEPGRAM_API_KEY")

APIキーをコードに直接書かないこと。GitHubへの誤コミットを防ぐために環境変数管理が必須です。

PythonでDeepgramを使う実装例

Deepgram Python実装

基本的な文字起こし(プリレコード)

# インストール
# pip install deepgram-sdk

import os
from deepgram import DeepgramClient, PrerecordedOptions

# クライアント初期化
deepgram = DeepgramClient(os.environ.get("DEEPGRAM_API_KEY"))

# ローカルファイルを文字起こし
def transcribe_file(filepath: str) -> str:
    with open(filepath, "rb") as audio:
        buffer_data = audio.read()
    
    payload = {"buffer": buffer_data}
    
    options = PrerecordedOptions(
        model="nova-3",           # 最新モデル指定
        language="ja",            # 日本語指定
        smart_format=True,        # 句読点の自動挿入
        diarize=True,             # 話者識別ON
        punctuate=True,           # 句読点追加
    )
    
    response = deepgram.listen.prerecorded.v("1").transcribe_file(
        payload, options
    )
    
    return response.results.channels[0].alternatives[0].transcript

# 実行例
transcript = transcribe_file("meeting_audio.mp3")
print(transcript)

URLを指定して文字起こし

from deepgram import DeepgramClient, PrerecordedOptions, UrlSource

deepgram = DeepgramClient(os.environ.get("DEEPGRAM_API_KEY"))

# URLから直接文字起こし(ファイルダウンロード不要)
source = UrlSource(url="https://example.com/audio.mp3")

options = PrerecordedOptions(
    model="nova-3",
    language="ja",
    smart_format=True,
    paragraphs=True,    # 段落分割
    summarize="v2",     # 自動要約(英語のみ対応)
)

response = deepgram.listen.prerecorded.v("1").transcribe_url(source, options)
transcript = response.results.channels[0].alternatives[0].transcript
print(transcript)

リアルタイムストリーミング文字起こし

マイクからの入力をリアルタイムで文字起こしする例です。

import asyncio
import pyaudio
from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions

DEEPGRAM_API_KEY = os.environ.get("DEEPGRAM_API_KEY")

async def realtime_transcription():
    deepgram = DeepgramClient(DEEPGRAM_API_KEY)
    dg_connection = deepgram.listen.asynclive.v("1")
    
    # コールバック関数定義
    async def on_message(self, result, **kwargs):
        sentence = result.channel.alternatives[0].transcript
        if sentence:
            print(f"[リアルタイム] {sentence}")
    
    dg_connection.on(LiveTranscriptionEvents.Transcript, on_message)
    
    # ストリーミングオプション
    options = LiveOptions(
        model="nova-3",
        language="ja",
        encoding="linear16",
        channels=1,
        sample_rate=16000,
        interim_results=True,   # 中間結果を返す
        endpointing=300,        # 無音検出(ms)
    )
    
    await dg_connection.start(options)
    
    # マイク入力ストリーム
    p = pyaudio.PyAudio()
    stream = p.open(
        format=pyaudio.paInt16,
        channels=1,
        rate=16000,
        input=True,
        frames_per_buffer=1024,
    )
    
    print("🎙️ 録音中... (Ctrl+Cで停止)")
    try:
        while True:
            data = stream.read(1024)
            await dg_connection.send(data)
    except KeyboardInterrupt:
        pass
    finally:
        stream.stop_stream()
        stream.close()
        p.terminate()
        await dg_connection.finish()

asyncio.run(realtime_transcription())

話者識別(議事録向け)

from deepgram import DeepgramClient, PrerecordedOptions

deepgram = DeepgramClient(os.environ.get("DEEPGRAM_API_KEY"))

with open("meeting.mp3", "rb") as f:
    buffer = f.read()

options = PrerecordedOptions(
    model="nova-3",
    language="ja",
    diarize=True,           # 話者識別ON
    smart_format=True,
    punctuate=True,
)

response = deepgram.listen.prerecorded.v("1").transcribe_file(
    {"buffer": buffer}, options
)

# 話者ごとに整理して出力
words = response.results.channels[0].alternatives[0].words
current_speaker = None
segment = []

for word in words:
    speaker = word.speaker
    if speaker != current_speaker:
        if segment:
            print(f"[話者{current_speaker}] {' '.join(segment)}")
        current_speaker = speaker
        segment = [word.word]
    else:
        segment.append(word.word)

if segment:
    print(f"[話者{current_speaker}] {' '.join(segment)}")

JavaScript(Node.js)での実装

// npm install @deepgram/sdk

const { createClient } = require("@deepgram/sdk");
const fs = require("fs");

const deepgram = createClient(process.env.DEEPGRAM_API_KEY);

async function transcribeFile(filepath) {
  const audioBuffer = fs.readFileSync(filepath);
  
  const { result, error } = await deepgram.listen.prerecorded.transcribeFile(
    audioBuffer,
    {
      model: "nova-3",
      language: "ja",
      smart_format: true,
      diarize: true,
    }
  );
  
  if (error) {
    console.error("エラー:", error);
    return;
  }
  
  const transcript = result.results.channels[0].alternatives[0].transcript;
  console.log("文字起こし結果:", transcript);
}

transcribeFile("audio.mp3");

DeepgramのTTS(音声合成)Aura-2の使い方

テキストを音声に変換するAura-2の実装例です。

from deepgram import DeepgramClient, SpeakOptions

deepgram = DeepgramClient(os.environ.get("DEEPGRAM_API_KEY"))

SPEAK_OPTIONS = {"text": "こんにちは。Deepgramの音声合成APIのテストです。"}

options = SpeakOptions(
    model="aura-2-shiori-ja",   # 日本語女性ボイス
    encoding="linear16",
    container="wav",
)

# 音声ファイルとして保存
response = deepgram.speak.v("1").save("output.wav", SPEAK_OPTIONS, options)
print(f"生成完了: {response.filename}")

Deepgramの日本語ボイス一覧(2026年4月時点)

ボイス名 性別 特徴
aura-2-shiori-ja 女性 標準的な日本語、明瞭な発音
aura-2-hoshi-ja 男性 落ち着いたトーン

Deepgramの日本語対応の実態

Deepgram日本語対応比較

Deepgramは公式に日本語対応を明示していますが、実際の使用感には注意点があります。

STT(音声認識)の日本語精度

Nova-3の日本語精度は英語と比較すると若干落ちるというのが正直なところです。

  • 標準的な話し言葉: 良好(業務上の会話程度なら十分)
  • 専門用語・固有名詞: 精度が下がる傾向。「キータームプロンプティング」機能で補正可能
  • 方言・話し癖が強い音声: 精度が落ちやすい

Qiitaのベンチマーク記事(2026年)によると、Deepgram Nova-3の単語誤り率(WER)は日本語で約5〜8%程度とされています。一般的な議事録用途では十分実用的な数値です。

TTSの日本語品質

Aura-2の日本語音声は自然な発音ですが、長文の読み上げではアクセントの不自然さが出ることがあります。ナレーションや音声案内など、品質が最重要の用途ではElevenLabsや専門の日本語TTSサービスとの比較検討をおすすめします。

APIでの言語指定

# 日本語を明示指定する場合
options = PrerecordedOptions(
    model="nova-3",
    language="ja",  # "ja" または "ja-JP" どちらも有効
)

# 自動言語検出(多言語混在音声に有効)
options_auto = PrerecordedOptions(
    model="nova-3",
    detect_language=True,   # 自動検出
)

他の音声認識APIとの比較

Deepgram vs AssemblyAI vs Whisper

項目 Deepgram Nova-3 AssemblyAI OpenAI Whisper API
プリレコード料金 $0.0043/分 $0.0025/分 $0.006/分
ストリーミング料金 $0.0077/分 $0.0025/分 非対応
無料枠 $200クレジット $50クレジット なし
レイテンシ 300ms以下 中程度 バッチのみ
日本語精度 良好 良好 最高クラス
話者識別 あり(+$0.0015/分) あり(Standard以上) なし
SDK Python/JS/Go等 Python/JS等 Python/JS等
音声合成(TTS) あり(Aura-2) なし あり(別API)

どれを選ぶべきか

Deepgramを選ぶべき場合:

  • リアルタイムストリーミングが必要(ボイスアシスタント・ライブ字幕)
  • 文字起こし+TTSをまとめて1社で完結させたい
  • 無料枠が多い方が助かる($200は圧倒的)
  • ボイスエージェントAPIを使いたい

AssemblyAIを選ぶべき場合:

  • バッチ処理が中心で、料金を最安に抑えたい($0.0025/分)
  • 日本語より英語がメイン
  • 感情分析・トピック検出など付加機能を重視

OpenAI Whisper APIを選ぶべき場合:

  • ChatGPTやGPT-4とのエコシステム統合が重要
  • 日本語精度最優先(Whisperは日本語に強い)
  • バッチ処理のみ(リアルタイム不要)

よくある質問

Q. Deepgramに無料プランはありますか?

クレジットカード不要で$200分のクレジットが付与されます。これはプリレコード換算で約46,500分(775時間以上)に相当します。個人開発・学習・プロトタイプ作成には十分な量です。クレジットを使い切った後は、従量課金に移行します。

Q. 料金はいくらから?月額固定プランはありますか?

基本は完全従量課金で、月額固定のプランはありません。Nova-3プリレコードで$0.0043/分から始まります。月間150時間以上の大規模利用者向けにGrowth Plan(年間契約、料金割引あり)が用意されており、詳細は営業窓口への問い合わせが必要です。

Q. 日本語の文字起こし精度はどの程度ですか?

Nova-3の日本語は十分実用的です。標準的な会議・インタビュー音声であれば、単語誤り率5〜8%程度(Qiitaベンチマーク2026年データ)。ただし英語と比較すると精度は若干落ちます。専門用語が多い場合は「キータームプロンプティング」機能で認識精度を上げられます。

Q. WhisperやAssemblyAIと比べて何が違いますか?

最大の違いはリアルタイムストリーミングのレイテンシと、TTS・Voice Agent APIも含めた音声AI統合基盤であること。AssemblyAIのバッチ料金($0.0025/分)と比べると高めですが、Deepgramは無料枠が$200と4倍大きく、ストリーミング用途では業界最速クラスのレイテンシを実現しています。

Q. 商用利用は可能ですか?

はい、商用利用可能です。企業向けには専用のエンタープライズプランも用意されており、2026年2月にはIBMとのパートナーシップも発表されています。データプライバシーやSLAが必要な場合は、エンタープライズプランを選択してください。

Q. Deepgramのデータ保存ポリシーは?

デフォルトでは、文字起こしのために送信した音声データは処理後に削除されます。APIパラメータno_store=trueを指定することで、データを保存しないよう明示的に設定することも可能です。EUリージョンのエンドポイント(api.eu.deepgram.com)を使えばデータ処理をEU内に限定できます。

Deepgramを試してみる

Deepgramは$200の無料クレジットからすぐに始められます。クレジットカード登録も不要です。

# クイックスタート(curlで即テスト)
curl \
  --request POST \
  --header 'Authorization: Token YOUR_API_KEY' \
  --header 'Content-Type: audio/mp3' \
  --data-binary @sample.mp3 \
  --url 'https://api.deepgram.com/v1/listen?model=nova-3&language=ja&smart_format=true'

まずこの1コマンドで動作確認してみましょう。レスポンスのJSONにresults.channels[0].alternatives[0].transcriptとして文字起こし結果が返ってきます。

リアルタイムボイスアシスタントから議事録自動生成まで、音声AIの可能性を広げたいなら、Deepgramはまず試す価値があります。