Hume AIとは

Hume AIは、音声のトーン・テンポ・抑揚から話者の感情を数値化するマルチモーダル感情AIプラットフォームです。怒り・喜び・不安など数十種類の感情指標をリアルタイムで抽出するExpression Measurement APIに加え、感情を調整可能なTTSモデル「Octave」、共感応答型の音声LLM「EVI」を提供。コールセンターの応対品質分析、UXリサーチ、メンタルヘルス系プロダクト開発、感情応答型AIエージェント構築といったB2B用途に活用できます。

主要機能

Expression Measurement API: 音声・表情・テキストから48種類以上の感情次元を数値化。1時間の通話録音を従来のアナリストが評価すると30〜60分かかるが、APIなら数分で全件スコアリングが可能。

EVI (Empathic Voice Interface): 話者の感情に応じてトーンや返答を調整する音声対話LLM。FAQ応答だけでなく、不満を検知したら謝罪トーンに切り替えるなど、従来TTS+LLM構成では実装に2〜4週間かかる感情応答ロジックをAPI標準機能で代替できる。

Octave TTS: 感情パラメータを指示文で制御できるテキスト読み上げモデル。オーディオブック・ゲームキャラ・ナレーション用途に対応し、声優手配で1分1〜3万円かかる箇所を内製化できる。

Webhookバッチ処理: 大量音声ファイルを非同期で解析、結果をJSONで返却。

編集部の検証メモ

公開料金は従量課金制で、Octave TTSは月10,000文字までの無料枠あり、有料は$3/月から、Pro $50/月で500,000文字。EVIはAdvancedプランで$50/月から提供される。Deepgram・AssemblyAI等の文字起こしAPIは感情分析がオプション加点扱いだが、Hume AIは感情次元の粒度(48種類以上)と研究論文に裏付けられたモデル設計が差別化ポイント。月100時間の通話を人手で品質評価すると人件費40〜60万円相当だが、API課金で同等カバーすれば月数万円規模に圧縮でき、品質チェック工数を1/10程度に削減できる試算となる。日本語対応の精度は英語比で限定的なため、PoCではサンプル音声での精度検証を推奨。

想定ユーザー

コールセンターのQA自動化、感情応答型ボイスボット開発、UXリサーチで定量的な感情データが必要なプロダクトチーム、メンタルヘルス系アプリ開発者に向く。一方、単純な文字起こしや議事録作成のみが目的の場合は、Notta・tl;dv等の特化ツールの方がコスト効率は高い。