mesh-llm完全ガイド2026

【2026年最新】mesh-llm 使い方完全ガイド|複数PCでローカルLLMを分散実行・料金無料・セットアップ手順

「手元に古いゲーミングPCが2台ある。合わせれば大きなLLMが動くはずなのに、1台では VRAM が足りない」——その問題を解決するのが mesh-llm です。

mesh-llm は、複数マシンの余剰 GPU リソースをプールし、1台では動かせない大規模言語モデルを分散実行できるオープンソースの推論プラットフォームです。OpenAI 互換 API を持つため、既存の AI ツールやエージェントからほぼそのまま利用できます。料金は無料(OSS)、2026年4月現在も活発に開発が続いています。

この記事でわかること

  • mesh-llm の仕組みと Ollama・LM Studio との違い
  • インストールから最初の API 呼び出しまでの具体的なコマンド
  • 複数 PC をメッシュに繋ぐ手順(プライベート&パブリック)
  • 対応モデル一覧と推奨スペック
  • エージェント連携・Blackboard 機能の使い方

30秒で結論

  • 料金: 完全無料(OSSソフトウェア、GPU電気代のみ)
  • 最大の強み: VRAM 不足でも複数 PC でモデルを分割実行できる
  • API: http://localhost:9337/v1(OpenAI 互換)
  • 対応モデル: Qwen3、GLM-4、DeepSeek、Mixtral など GGUF 形式のモデル全般
  • 主な用途: 自宅サーバーでのプライベート LLM・エージェント実行基盤
  • Ollama との違い: マルチノード分散が可能(Ollama は単一マシンのみ)

mesh-llm とは?仕組みをわかりやすく解説

mesh-llm の分散推論ネットワーク構成

mesh-llm は、Michael Neale 氏(block/goose プロジェクトメンバー)が開発した分散 LLM 推論プラットフォームです。OSS(MITライセンス)として GitHub で公開されており、誰でも無料で使えます。

基本的な考え方はシンプルです。「1台の GPU では VRAM が足りなくてモデルが動かない。なら複数台で分けて動かせばいい」というものです。

どのように分散するのか

mesh-llm は内部で llama.cpp をベースとしており、モデルの種類によって自動的に最適な分散方式を選択します。

モデル種別 分散方式 特徴
Dense モデル(LLaMA等) パイプライン並列 レイヤーをノード間で分割
MoE モデル(Qwen3/DeepSeek等) エキスパートシャーディング エキスパートをノード間で分散、推論時のノード間通信なし
単一マシンで収まる場合 ソロモード ネットワーク経由の通信コストなし・最高速

MoE(Mixture of Experts)モデルは推論時のクロスノード通信がゼロになるよう設計されており、分散環境でも遅延が最小化されます。これは Qwen3・GLM-4・DeepSeek・Mixtral などで特に効果的です。

ゼロ転送ロード(Zero-Transfer Loading)

通常、分散推論ではモデルの重みをネットワーク経由で転送するため、起動が遅くなります。mesh-llm は各ノードがローカルの GGUF ファイルから重みを直接読み込む設計のため、起動時間が劇的に短縮されます。公式データでは モデルロード時間: 111秒 → 5秒トークンあたりの RPC ラウンドトリップ: 558 → 8 という改善を実現しています。

mesh-llm の料金

mesh-llm はオープンソースソフトウェアであり、ソフトウェア自体は完全無料です。

項目 内容
ソフトウェアライセンス OSS(無料)
クラウド API 費用 ¥0(ローカル実行のため)
必要なコスト GPU搭載PC(既存マシン活用可)+電気代
パブリックメッシュ参加 無料(他者のGPUを借用)
プライベートメッシュ 無料(自分のPCのみで構成)

GPT-4oClaude の API を月々使い続けると、個人でも月数千円〜数万円のコストが発生します。mesh-llm は一度セットアップすれば、電気代以外のランニングコストがゼロです。プライバシー保護の観点でも、データがクラウドに送られないため、機密情報を含む用途に適しています。

インストール方法(macOS・Linux)

mesh-llm インストールとセットアップ

mesh-llm のインストールは1コマンドで完了します。macOS と Linux に対応しています(Windows はソースビルドが必要)。

ワンライナーインストール

curl -fsSL https://github.com/michaelneale/mesh-llm/releases/latest/download/mesh-bundle.tar.gz | tar xz \
  && mkdir -p ~/.local/bin \
  && mv mesh-bundle/* ~/.local/bin/

GPU 確認

mesh-llm gpus

インストール後、まず自分のマシンに認識されている GPU を確認します。NVIDIA・AMD・Vulkan・CPU のいずれでも動作します(Metal は macOS 専用)。

最速スタート(1コマンド)

mesh-llm serve --auto

このコマンド1つで以下が自動実行されます。

  1. 自分のハードウェアに最適なバックエンドを選択
  2. 適切なモデルをダウンロード(初回のみ)
  3. 最適なパブリックメッシュに参加
  4. OpenAI 互換 API を http://localhost:9337/v1 で公開
  5. ウェブコンソールを http://localhost:3131 で起動

特定モデルを指定して起動

# Qwen2.5-32B(大型モデル)
mesh-llm serve --model Qwen2.5-32B

# 小さいモデルで試す場合(約2GB)
mesh-llm serve --model Qwen2.5-3B

利用可能なモデルを確認

curl -s http://localhost:9337/v1/models | jq '.data[].id'

実際に API を叩く

curl http://localhost:9337/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "GLM-4.7-Flash-Q4_K_M",
    "messages": [{"role": "user", "content": "こんにちは!日本語で答えてください。"}]
  }'

複数 PC をメッシュに接続する方法

マルチモデルルーティング構成

mesh-llm の真価は、複数マシンを繋いで1台では動かせないモデルを実行することにあります。

プライベートメッシュの作成(2台目以降を接続)

# 1台目のマシンで起動(トークンが表示される)
mesh-llm serve --model Qwen2.5-32B
# 出力例: mesh invite token: eyJhbGciOiJIUzI1NiIsInR5cCI6...

# 2台目のマシンで参加
mesh-llm serve --join <1台目が表示したトークン>

# 3台目、4台目も同様に --join で参加

2台目以降が参加すると、mesh-llm は自動的に最適な分散方式を選んでモデルを分割実行します。VRAM が多いノードにより多くのレイヤーが割り当てられます。

パブリックメッシュへの参加

# GPU ノードとして参加
mesh-llm serve --auto

# GPU を持たないクライアントとして参加(API 利用のみ)
mesh-llm client --auto

パブリックメッシュでは、Nostr リレー経由で他のノードを自動発見します。地域・VRAM 量・ヘルスチェックをスコアリングして最適なメッシュに自動参加するため、手動設定は不要です。

需要対応型リバランシング

mesh-llm には需要に応じたノード再割り当て機能があります。

  • あるモデルへのリクエストが増えた場合、スタンバイノードが自動的にそのモデルを引き受ける
  • ノードが落ちても60秒以内に別ノードが代替
  • ゴシッププロトコルで全ノードに需要マップを伝播

対応モデルと推奨スペック

推奨モデル一覧(2026年4月時点)

モデル VRAM必要量 用途 分散対応
Qwen3-32B 20GB+ 高精度・多言語 ✅ MoEシャーディング
Qwen2.5-32B 20GB+ 汎用高精度
GLM-4.7-Flash 8GB 高速・日本語OK
DeepSeek-V3 80GB+ 最高精度 ✅ 複数ノード必須
Mixtral-8x7B 48GB+ MoE・高速 ✅ MoEシャーディング
Qwen2.5-3B 2GB 軽量・テスト用 — ソロモード

GGUF 形式であれば llama.cpp が対応するモデルはほぼすべて動作します。

マシンスペック目安

構成 VRAM合計 動かせるモデル
1台(RTX 3090 ×1) 24GB Qwen2.5-14B まで
2台(RTX 3090 ×2) 48GB Mixtral-8x7B、Qwen2.5-32B
3台(RTX 4090 ×3) 72GB DeepSeek-V3 Q4程度
4台(RTX 4090 ×4) 96GB ほぼすべての公開モデル

CPU のみでも動作しますが、速度は GPU 環境と比較して大幅に低下します。個人利用なら 7B〜14B モデルであれば CPU でも実用的な速度が出ます。

Ollama・LM Studio との比較

mesh-llm の位置づけを理解するために、代表的なローカル LLM ツールと比較します。

項目 mesh-llm Ollama LM Studio
マルチノード分散
OpenAI 互換 API ✅ localhost:9337 ✅ localhost:11434 ✅ localhost:1234
GUI ウェブコンソール なし(CLI) 充実
インストールの簡単さ ★★★★(1コマンド) ★★★★★ ★★★(インストーラー)
Windows 対応 ソースビルドのみ
VRAM不足への対応 ✅ 複数台で分散
エージェント連携 ✅ Blackboard機能
対象ユーザー 上級者・複数PC保有者 初心者〜中級者 初心者〜中級者

Ollama は「1台のマシンでローカル LLM を手軽に動かす」用途に最適です。一方、mesh-llm は「複数台のマシンを持っていて、より大きなモデルを動かしたい」という用途に特化しています。初めてローカル LLM を試すなら Ollama から始めるのが無難で、将来的にスケールアップしたい場合に mesh-llm を検討するのが現実的なルートです。

エージェント連携と Blackboard 機能

自宅の複数PC共有GPUコンピュート

mesh-llm は、OpenClaw、goose、pi、opencode など OpenAI 互換エンドポイントをサポートするエージェントツールとそのまま連携できます。設定はエンドポイントを http://localhost:9337/v1 に変えるだけです。

goose との連携例

# goose の設定で OpenAI エンドポイントを変更
export OPENAI_BASE_URL="http://localhost:9337/v1"
export OPENAI_API_KEY="mesh-local"  # 任意の文字列でOK
goose run

Blackboard(エージェントゴシップ)機能

mesh-llm には Blackboard という独自機能があります。これはメッシュ上で複数のエージェントや人間が作業状況・調査結果・質問などを共有できる掲示板のようなものです。

# Blackboard に投稿(GPU不要)
mesh-llm board post "タスクA完了: X APIの認証が通った"

# Blackboard を読む
mesh-llm board read

# MCP 経由でエージェントから利用することも可能

パブリックメッシュでは他の参加者全員に見える投稿になるため、プライベートメッシュ内での利用を推奨します。個人のエージェント間で作業進捗を共有したり、複数エージェントが協調してタスクを分担するといった用途に活用できます。

投機的デコーディング(Speculative Decoding)

mesh-llm はスペキュラティブデコーディングをサポートしており、小さなドラフトモデルがトークン候補を先行生成し、大きなモデルが一括検証することで処理速度を向上させます。公式データではコードタスクで +38% のスループット改善を確認しています。カタログから自動検出されるため、特別な設定は不要です。

ウェブコンソールの使い方

起動後、http://localhost:3131 でウェブコンソールにアクセスできます。コンソールでできることは以下の通りです。

  • メッシュトポロジーの可視化: どのノードがどのモデルを担当しているかをリアルタイム表示
  • VRAM 使用率のモニタリング: 各ノードのメモリ使用量をバー表示
  • モデルピッカー: 利用可能なモデル一覧から選択してチャット
  • ビルトインチャット: API を叩かなくても画面上で直接対話可能

すべての情報は JSON エンドポイントから取得されており、独自のダッシュボードを構築することも可能です。

よくある質問

Q. mesh-llm は Windows でも使えますか?

公式バイナリは macOS と Linux のみ提供されています。Windows では CUDA・ROCm・Vulkan・CPU 向けのソースビルドに対応しており、GitHub の README に手順が記載されています。必要なツールは justcmake、Rust ツールチェーン、Node.js 24+npm です。

Q. GPU がない PC でも使えますか?

はい、使えます。mesh-llm client --auto コマンドでクライアントノードとして参加することで、GPU のない PC でも API エンドポイントを利用できます。Blackboard 機能も GPU なしで使えます。ただし推論計算はメッシュ上の GPU ノードが担います。

Q. Ollama と mesh-llm を同じマシンで共存させられますか?

はい、ポートが異なるため共存可能です(Ollama: 11434、mesh-llm: 9337)。ただし、同じモデルを両方でロードする場合は VRAM の競合に注意が必要です。

Q. どのくらいのインターネット回線速度が必要ですか?

プライベートメッシュ(自宅 LAN 内)であれば、ギガビットイーサネット(1Gbps)以上を推奨します。ゼロ転送ロード設計のため、モデルの重みはネットワーク経由で転送せず各ノードのローカルストレージから読み込みます。初回のモデルダウンロードは各ノードで個別に行う必要があります(Qwen2.5-32B で約20GB)。

Q. セキュリティ面での注意点は?

mesh-llm serve --auto でパブリックメッシュに参加すると、Blackboard の投稿が他の参加者に見える場合があります。機密情報を扱う場合はプライベートメッシュのみで運用してください。ローカル API(localhost:9337)はデフォルトでローカルホストのみアクセス可能で、外部に公開されません。

Q. どのモデルが日本語に強いですか?

2026年時点では GLM-4.7Qwen3 シリーズ が日本語の品質が高く、mesh-llm での分散実行にも対応しています。特に GLM-4.7-Flash は 8GB の VRAM で動くため、単一 GPU でも試しやすいモデルです。

Q. スペキュラティブデコーディングを有効にするには?

特別な設定は不要です。モデルカタログに対応するドラフトモデルが含まれている場合、mesh-llm が自動的に検出して有効化します。無効にしたい場合は --no-speculative フラグを使います。

mesh-llm はこんな人に向いている

向いている人:

  • 自宅に複数台の GPU 搭載 PC を持っている
  • API コストを削減したい
  • 機密データをクラウドに送りたくない
  • 大型オープンソースモデル(DeepSeek・Qwen3 等)を動かしたい
  • エージェント実行基盤をローカルで構築したい

向いていない人:

  • PC が1台しかなく、Ollama で十分な用途
  • Windows メインでソースビルドが難しい
  • 手軽な GUI ツールが欲しい(LM Studio の方が向いている)
  • 技術的なセットアップが苦手な初心者

mesh-llm は 2026年4月現在も活発に開発中で、GitHubのスター数は急増しています。「手元のリソースで可能な限り大きなモデルを動かす」という明確なニーズに応えるツールとして、今後の進化が期待されます。