MoE (混合エキスパート)
読み: えむおーいー
最終更新: 2026-06-25・AI PICKS編集部
定義
MoE(混合エキスパート)とは、複数の専門サブネットワーク(エキスパート)を持ち、入力トークンごとに一部だけを活性化させるスパース型ニューラルネットワーク設計手法のこと。
MoE (混合エキスパート)とは — 詳しく解説
MoEは、モデル全体を複数の「エキスパート」(専門ニューラルネットワーク)に分割し、各トークン処理時に少数のエキスパートのみをルーターが選択・実行する「スパース活性化」アーキテクチャ。同等精度の密なモデル(Dense)に比べ、推論時の計算コストを大幅に削減できる点が最大の利点だ。 Mixtral 8x7BやGemini 1.5 Pro、GPT-4など2026年現在の主力モデルの多くがMoEを採用しており、「パラメータ規模は大きくてもAPIコストが低い」モデルが増えている背景にこの仕組みがある。AI PICKSで紹介するLLMサービスの価格差を理解する上でも欠かせない概念だ。 ただし実運用での落とし穴は「メモリ」にある。全エキスパートを常駐させる必要があるため、8×7B構成でも実質46.7B相当のVRAMが要求される。ローカル実行では4bit量子化でも40GB超のGPUメモリが必要なケースが多く、現場では想定外のハードウェアコストに直面しがちだ。 2026年の相場感としては、MoEモデルのAPI利用コストは同精度の密なモデルより20〜40%安い傾向がある一方、ファインチューニング時は全エキスパートを更新するため費用が跳ね上がる。現場での選び方は「推論中心ならMoE、継続的なファインチューニングが前提なら密なモデル」が一つの実践的指針となる。
MoE (混合エキスパート)の使用例
- Mixtral 8x7BはMoE構成で総パラメータ46.7B、推論時はトークンごとに12.9B分のみ計算。API料金はLlama-65B相当の品質でコスト約1/3という事例が多い。
- ローカルでMoEモデルを動かす際は量子化ありでも40GB超のVRAMが必要になるケースがある。クラウドAPIとの使い分けがコスト管理の現場ポイント。
MoE (混合エキスパート)に関連するAIツール
関連用語
「インフラ・学習」の他の用語
既存の AI モデルを 自社データで追加学習させて 専門特化させる方法。
データから法則を自動学習させる AI 技術の総称。 ディープラーニングや LLM もここに含まれる。
ニューラルネットワークを多層化した機械学習手法。 LLM / 画像認識 / 音声認識 の基盤技術。
Self-Attention 機構を中核とするニューラルネット構造。 LLM / 画像 / 音声 すべての基盤。
入力系列のどこに注目すべきかを 動的に重み付けする仕組み。 Transformer の中核。
LoRAとは、大規模モデルの重みを凍結したまま低ランク行列ペアを追加挿入することで、全パラメータの1%以下の計算コストで特定ドメインへの適応を実現するファインチューニング手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ