
【2026年最新】AI文字起こしツールおすすめ7選|無料・有料を徹底比較
会議の議事録、インタビューの書き起こし、YouTube動画の字幕作成——。「文字起こし」は誰もがやりたくない作業の代表格です。2026年現在、AI文字起こしツールの精度は95%を超え、人間が手作業で行うより圧倒的に速く、安く、正確になりました。
この記事では、実際に使い比べた7つのAI文字起こしツールを料金・精度・機能で徹底比較します。個人で無料で使いたい人から、チームで議事録を自動化したい企業まで、最適なツールが見つかります。
この記事でわかること
- AI文字起こしツール7つの料金・機能・精度の比較
- 完全無料で使えるツールとその限界
- 用途別(会議・インタビュー・動画)のおすすめ
- OpenAI Whisperをローカルで無料実行する具体的な手順
- 日本語の文字起こし精度が高いツールの見分け方
30秒で結論
- 完全無料で高精度 → OpenAI Whisper(ローカル実行。Python環境が必要)
- 日本語の会議を自動化したい → Notta(月1,185円〜。Zoom/Teams連携が秀逸)
- 英語中心のチーム会議 → Otter.ai(月$8.33〜。リアルタイム文字起こし)
- 動画編集もまとめてやりたい → Descript(月$12〜。文字起こし+動画編集)
- APIで大量処理したい → Whisper API($0.006/分)またはDeepgram($0.0043/分)
AI文字起こしツールとは?仕組みと選び方

AI文字起こしツールは、音声認識モデル(ASR: Automatic Speech Recognition)を使って音声データをテキストに変換するサービスです。2026年現在、主流のアーキテクチャは大きく2つあります。
Transformer系モデル(Whisper系) OpenAIが公開したWhisperをベースに、68万時間以上の多言語音声データで学習。日本語を含む99言語に対応し、精度は95%以上。Notta、Texter、多くのラッパーサービスが内部でWhisperを利用しています。
独自ASRモデル(Deepgram、Google Cloud Speech等) リアルタイム処理に特化した独自モデル。低遅延が求められるコールセンターやライブ配信向き。
選ぶ際の4つのチェックポイント
- 日本語精度 — 英語は大半のツールで95%以上だが、日本語は80〜95%とツール間で差が大きい
- リアルタイム対応 — 会議中にリアルタイムで表示するか、録音ファイルを後から処理するか
- 話者分離(ダイアライゼーション) — 「誰が何を言ったか」を自動識別する機能
- 連携サービス — Zoom、Teams、Google Meetとの自動連携があるか
AI文字起こしツール7選の料金・機能比較表

まず全体像を把握しましょう。以下は2026年3月時点の最新料金です。
🎯 消費者向けツール(サブスクリプション型)
- Notta — 無料: 月120分 / プレミアム: ¥1,185/月(年払い)、月1,800分 / ビジネス: ¥2,508/月(年払い)、無制限
- Otter.ai — 無料: 月300分(1回30分) / Pro: $8.33/月(年払い)、月1,200分 / Business: $20/人/月(年払い)
- Descript — 無料: 月1時間 / Hobbyist: $12/月、月10時間 / Creator: $24/月、月30時間
- Fireflies.ai — 無料: 制限あり / Pro: $10/月、無制限 / Business: $19/月
🔧 開発者向けツール(従量課金型)
- OpenAI Whisper(ローカル) — 完全無料(オープンソース)
- Whisper API(OpenAI) — $0.006/分(60分の会議 = 約¥50)
- Deepgram — $0.0043/分〜(初回$200クレジット付き)
📌 ポイント: 月に数時間程度の文字起こしなら無料プランで十分。毎日1時間以上使うなら、Nottaのプレミアムプラン(¥1,185/月)かOtter.ai Pro($8.33/月)が最もコスパが良い。
OpenAI Whisper — 完全無料で最高精度の文字起こし

OpenAI Whisperは、OpenAIが2022年にオープンソースで公開した音声認識モデルです。2026年現在も精度ではトップクラスで、日本語認識も非常に優秀。最大の魅力は完全無料でローカル実行できること。
Whisperの基本スペック
- 対応言語: 99言語以上(日本語の精度も高い)
- 料金: ローカル実行は無料 / API利用は$0.006/分
- 出力形式: テキスト、SRT(字幕)、VTT、JSON
- 話者分離: 標準では非対応(pyannoteなど別ライブラリと併用が必要)
ローカルでWhisperを使う手順
Python環境があれば、3ステップで文字起こしが始められます。
# 1. インストール
pip install openai-whisper
# 2. 文字起こし実行(日本語指定)
whisper audio.mp3 --language Japanese
# 3. モデルサイズを指定して高精度に
whisper audio.mp3 --language Japanese --model medium
モデルサイズと精度の関係
Whisperには5つのモデルサイズがあり、大きいほど精度が上がる代わりに処理時間とメモリ消費が増えます。
- tiny — 精度: 低 / VRAM: 約1GB / 用途: テスト用
- base — 精度: 中 / VRAM: 約1GB / 用途: 簡易メモ
- small — 精度: 高め / VRAM: 約2GB / 用途: 一般利用(おすすめ)
- medium — 精度: 高い / VRAM: 約5GB / 用途: 業務利用(日本語に最適)
- large — 精度: 最高 / VRAM: 約10GB / 用途: 最高精度が必要な場面
一般的な日本語の文字起こしにはmediumがベストバランス。M1/M2以上のMacなら快適に動きます。
Whisper APIで使う場合
ローカル環境を用意できない場合は、OpenAIのAPIを使えば数行のPythonコードで同じ精度の文字起こしが可能です。
from openai import OpenAI
client = OpenAI()
with open("meeting.mp3", "rb") as audio:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio,
language="ja"
)
print(transcript.text)
料金は1分あたり$0.006。60分の会議でも約$0.36(約50円)。コスト面では圧倒的。
Whisperが向いている人
- Pythonが使えるエンジニア・技術者
- 動画の字幕ファイル(SRT/VTT)を大量に作りたい人
- データのプライバシーを重視する人(ローカル処理でクラウドに送らない)
- コストを極限まで抑えたい人
Whisperが向いていない人
- プログラミングが苦手な人(→ NottaやOtter.aiを推奨)
- リアルタイム文字起こしが必要な人(→ Whisperは録音ファイル処理がメイン)
- 話者分離が必須な人(→ 標準では非対応)
Notta — 日本語特化のAI文字起こし
Nottaは日本発のAI文字起こしサービスで、日本語の認識精度と使いやすさに定評があります。Whisperベースの音声認識エンジンを採用し、58言語に対応。Zoom・Teams・Google Meetとの自動連携が特に優秀です。
Nottaの料金プラン(2026年3月時点)
- フリー — ¥0 / 月120分 / 1回3分まで / AI要約月10回
- プレミアム — ¥1,185/月(年払い)/ 月1,800分(30時間) / 1回90分 / AI要約月30回
- ビジネス — ¥2,508/月(年払い)/ 無制限 / 1回5時間 / 録画機能・セキュリティ管理
Nottaの強み
- 日本語精度が高い: Whisperベースに日本語特化チューニング。専門用語の単語登録も可能
- Web会議の自動参加: ZoomやTeamsのURLを登録するだけで、AIが自動参加して文字起こし
- リアルタイム文字起こし: 会議中にリアルタイムでテキスト化。スマホアプリでも対応
- AI要約: 1時間の会議を5分のサマリーに自動圧縮
- 話者分離: 高精度の話者識別機能を標準搭載
- セキュリティ: SOC2、ISO27001認証取得
Nottaの注意点
- 無料プランは1回3分の制限が厳しい(実質お試し専用)
- 月額はWhisper(無料)やOtter.ai($8.33〜)と比べるとやや高め
- 英語圏のツールとの連携エコシステムはOtter.aiに劣る
📌 ポイント: 日本語の会議を主に扱うなら、Nottaのプレミアムプラン(¥1,185/月)が最もバランスが良い。月30時間あれば、毎日1時間の会議をカバーできる。
Otter.ai — チーム会議のリアルタイム文字起こし

Otter.aiは、リアルタイム会議の文字起こしに特化したサービスです。OtterPilotという専用ボットがZoom・Teams・Google Meetに自動参加し、文字起こし・要約・アクションアイテム抽出を自動で行います。
Otter.aiの料金プラン(2026年3月時点)
- Free — $0 / 月300分(1回30分まで)
- Pro — $16.99/月(月払い)または$8.33/月(年払い)/ 月1,200分
- Business — $30/人/月(月払い)または$20/人/月(年払い)/ チームワークスペース
- Enterprise — カスタム料金 / SSO、SOC2、API
Otter.aiの強み
- 無料枠が太い: 月300分(5時間)は消費者向けツールの中で最大級
- OtterPilot: カレンダー連携で会議に自動参加、文字起こし後にサマリーを自動送信
- コラボレーション: チームメンバーがトランスクリプトにハイライト・コメントを追加できる
- 話者識別: 自動で話者を識別し、名前を割り当て
- 教育割引: .edu メールで学生・教育者向け割引あり
Otter.aiの注意点
- 日本語精度はNottaに劣る: 英語では95%以上の精度だが、日本語は90%前後で固有名詞や専門用語に弱い
- UIが英語のみ: 日本語の文字起こしは可能だが、インターフェースは英語
- 無料プランの1回30分制限: 30分を超える会議は途中で切れる
📌 ポイント: 英語の会議が多いチーム、またはグローバル企業でSlack/Notion連携を活用したい場合はOtter.aiが最適。日本語中心なら素直にNottaを選んだ方がストレスが少ない。
Descript — 文字起こし×動画編集の一体型ツール
Descriptは「文字を編集するように動画を編集する」という革新的なコンセプトのツールです。文字起こしされたテキストを編集すると、対応する動画部分も自動カットされます。ポッドキャスターやYouTuberに特に人気。
Descriptの料金プラン(2026年3月時点)
- Free — $0 / 月1時間の文字起こし / 透かし付きエクスポート
- Hobbyist — $12/月 / 月10時間 / 1080p透かしなし
- Creator — $24/月 / 月30時間 / 4K / AIスピーチ2時間/月
- Business — $40/月 / 月40時間 / 4K / 多言語吹替2時間/月 / 優先サポート
Descriptの強み
- テキストベースの動画編集: 文字起こしテキストの不要部分を削除 → 動画も自動でカット
- フィラーワード自動除去: 「えーと」「あのー」を自動検出して一括削除
- Overdub: AIボイスクローン機能。自分の声でナレーション修正が可能
- 多言語吹替: 英語のコンテンツを日本語音声に自動変換(Creator以上)
- スクリーン録画: 内蔵のスクリーンレコーダーで録画→文字起こし→編集がワンストップ
Descriptの注意点
- 日本語の文字起こし精度は英語より劣る(80〜85%程度)
- 動画編集が不要な人にはオーバースペック
- PCのスペックが低いと動作が重くなる
📌 ポイント: ポッドキャストやYouTube動画の制作フローを一元化したいなら、Descriptは唯一無二の選択肢。文字起こし単体が目的なら、NottaやWhisperの方がコスパが良い。
その他の注目ツール
Fireflies.ai
会議の自動記録に特化したツール。Zoom・Teams・Google Meet・Webexに対応し、会議後に自動で文字起こし・要約・アクションアイテム抽出を行います。料金はProプランで$10/月。CRM連携(Salesforce、HubSpot)が強力で、営業チーム向き。
Deepgram
開発者向けのAPIサービス。$0.0043/分という低価格と、リアルタイムストリーミング対応が特長。WebSocket経由でのリアルタイム処理に対応し、コールセンターや音声アシスタントの構築に最適。初回$200のクレジットで試せます。
AssemblyAI
開発者向けAPIで、ベース価格$0.00249/分は業界最安級。感情分析、PII(個人情報)の自動マスキング、要約機能など高度な後処理機能が充実。初回100時間分が無料で使えます。
用途別おすすめの選び方
会議の議事録を自動化したい
- 日本語の会議が中心 → Notta(プレミアム ¥1,185/月)
- 英語の会議が中心 → Otter.ai(Pro $8.33/月)
- Microsoft Teams中心 → Microsoft Copilot(M365に含まれる場合あり)
インタビュー・取材の文字起こし
- コストゼロで高精度 → Whisperローカル(
whisper interview.mp3 --language Japanese --model medium) - 手軽に使いたい → Notta(音声ファイルをアップロードするだけ)
YouTube動画の字幕作成
- SRT/VTTファイルが必要 → Whisper(
whisper video.mp4 --language Japanese --output_format srt) - 動画編集も同時にやりたい → Descript
大量の音声ファイルを一括処理
- 自社サーバーで処理 → Whisperローカル(GPUがあれば高速)
- API経由で処理 → Deepgram($0.0043/分)またはAssemblyAI($0.00249/分)
コールセンター・リアルタイム処理
- WebSocket対応が必要 → Deepgram
- 高度な分析が必要 → AssemblyAI(感情分析・PII検出)
AI文字起こしの精度を上げるコツ
どのツールを使っても、入力音声の品質が精度を大きく左右します。以下の5つを押さえるだけで認識率が10〜15%改善することもあります。
- 外付けマイクを使う — ノートPC内蔵マイクより指向性マイクが圧倒的に精度向上。USB接続のコンデンサーマイクが¥3,000〜で入手可能
- 静かな環境で録音する — エアコン音、キーボード音、BGMは大敵。ノイズキャンセリング付きマイクも有効
- 言語を明示する — Whisperなら
--language Japaneseを指定。自動検出に任せると精度が落ちる場合がある - 話者が重ならないようにする — 同時発話はどのツールでも苦手。会議では発言の順番を意識する
- 専門用語は辞書登録する — NottaやOtter.aiでは「カスタム語彙」機能で固有名詞を事前登録できる
よくある質問(FAQ)
Q: AI文字起こしの精度はどのくらいですか?
A: 英語では95%以上が一般的です。日本語はツールによって差があり、Whisper(mediumモデル)やNottaで90〜95%程度。日常会話に近い話し方で、クリアな音声なら95%を超えることも珍しくありません。専門用語や方言が多い場合は80〜85%程度に下がることがあります。
Q: 完全無料で使えるAI文字起こしツールはありますか?
A: OpenAI Whisperはオープンソースで完全無料です。ローカルPCにPython環境を用意すれば、時間制限なく何時間でも文字起こし可能。プログラミングが苦手な場合は、Nottaの無料プラン(月120分)やOtter.aiの無料プラン(月300分)で代用できます。
Q: リアルタイム文字起こしは可能ですか?
A: Notta、Otter.ai、Fireflies.aiはリアルタイム対応しています。Zoom・Teams・Google Meetとの連携で、会議中にリアルタイムでテキストが表示されます。Whisperは基本的に録音ファイルの後処理向けで、リアルタイムには向きません。
Q: 話者分離(誰が何を言ったか)に対応しているツールは?
A: Notta、Otter.ai、Fireflies.ai、Descript、Deepgramは標準で話者分離に対応しています。Whisperは標準では非対応ですが、pyannote-audioなどのライブラリと組み合わせることで実現可能です。
Q: 日本語の文字起こしに最も強いツールはどれですか?
A: 日本語特化という点ではNottaが最も安定しています。Whisper(mediumモデル以上)も日本語精度は高いですが、単語登録やリアルタイム対応の利便性まで含めるとNottaに軍配が上がります。英語メインで日本語も使うなら、Otter.aiも十分実用的です。
Q: セキュリティ面は大丈夫ですか?
A: NottaはSOC2、ISO27001認証を取得。Otter.aiのEnterpriseプランもSOC2対応です。音声データを一切外部に送りたくない場合は、Whisperのローカル実行が最善。すべてPC内で処理されるため、クラウドに音声が渡ることはありません。
Q: スマホだけでAI文字起こしできますか?
A: NottaとOtter.aiはiOS/Androidアプリがあり、スマホ単体で録音→文字起こし→共有まで完結します。特にNottaのスマホアプリは日本語UIで使いやすく、対面の打ち合わせを録音するのに便利です。
Q: 60分の会議を文字起こしするのにかかる費用は?
A: Whisperローカルなら¥0。Whisper APIなら約¥50。Nottaプレミアムなら月1,800分の枠内で実質¥0(月額¥1,185に含まれる)。Otter.ai Proなら月1,200分の枠内で実質¥0(月額約¥1,300に含まれる)。Deepgram APIなら約¥40。
