MiMo-V2.5 Voiceとは

MiMo-V2.5 Voiceは、Xiaomi(小米)が2026年3月に発表した自社開発マルチモーダル基盤「MiMo-V2.5」シリーズの音声特化モジュールです。中国語の各種方言や、会話中に中国語と英語などが混在するコードスイッチング発話を高精度に認識・合成できる点が最大の特徴で、コールセンターの応対分析、議事録自動文字起こし、動画字幕生成、音声アシスタント組み込みといった、標準中国語のみでは取りこぼしが発生する業務領域を主要ターゲットとしています。

主要機能

  • 方言対応ASR(音声認識): 広東語・四川語・上海語など主要方言に加え、訛りの強い普通話にも対応。手作業の文字起こし業務において、1時間の通話音声を約3〜5分で下書きテキスト化できる水準とされ、書き起こしオペレータの稼働を大幅に削減できる構成です。
  • コードスイッチング処理: 1つの発話内に中国語・英語・専門用語が混在しても、言語切替を逐次検出してそれぞれの言語モデルに振り分けます。技術系会議や越境ECのカスタマー対応など、中英混在が前提の現場で誤認識を抑制できます。
  • 方言対応TTS(音声合成): 同シリーズのMiMo-V2-TTSと連携し、方言ボイスでの自動応答やIVR、動画ナレーション生成に利用可能。プロンプトベースで話者スタイルを切り替えられる設計が公表されています。
  • マルチモーダル連携: テキスト系のMiMo-V2-Pro、汎用モーダルのMiMo-V2-Omniと同一基盤上で動くため、音声 → テキスト → 要約 → 再合成までを一貫処理しやすい点が他社の単機能ASRと異なる構造です。

編集部の検証メモ

公開情報をベースに料金と機能要件を突き合わせると、MiMoシリーズの推定価格帯は100万トークンあたり入力1ドル / 出力3ドル前後とされ、同等性能とされるAnthropic Claude Opus(5ドル / 25ドル)と比較して5〜8倍ほど安価な水準です。さらにArtificial Analysis上ではMiMo-V2-Proが49点でDeepSeek-V3.2を上回ったと報告されており、音声系も同基盤上に乗ることから精度面の信頼性は中堅以上と評価できます。月1,000時間規模の中国語通話をオペレータで文字起こしする場合、人件費の概算80〜120万円に対し、本モデル運用ならAPIコストは月数万円台に収まる試算で、ROIは十分に成立する見立てです。一方で英語単体の精度や日本語対応は公表が薄く、グローバル一斉導入よりは中国拠点・中華圏顧客チャネルから段階導入する構成が現実的です。

想定ユーザー

中国拠点を持つ企業のコールセンター、越境ECのカスタマーサポート、中国語コンテンツを多言語展開する動画・メディア事業者に最適です。逆に、英語・日本語のみを扱う業務や、オンプレ完結・国産ベンダー縛りが必須の領域では、対応状況の公表不足から本命候補にはなりにくく、英語系ASRとの併用が前提となります。