ローカルLLM完全ガイド2026

ローカルLLMの始め方完全ガイド|Ollama・LM Studioの使い方とおすすめモデル【2026年最新】

ChatGPTのAPI料金が毎月かさむ…」「会社の機密データをクラウドAIに送りたくない…」「オフラインでもAIを使いたい…」——そんな悩みを解決するのがローカルLLMです。

2026年に入って、オープンソースのLLMは「趣味の実験」から「実務ツール」へと完全にフェーズが変わりました。この記事では、ローカルLLMを今日から始めるために必要な知識を全てまとめます。

この記事でわかること

  • ローカルLLMとは何か、クラウドAIとの違い
  • Ollama・LM Studio・llama.cppの違いと選び方
  • インストールから最初の会話までの具体的な手順
  • 2026年おすすめモデルランキング(日本語対応)
  • 必要なPCスペックと予算別のGPU選び
  • 実務で使える活用テクニック

30秒で結論

  • ローカルLLMとは: 自分のPC上でAIモデルを動かす方法。データが外部に出ない、API料金ゼロ、オフライン利用可能
  • 初心者はOllamaから: curl -fsSL https://ollama.ai/install.sh | shollama run qwen3:14b で即スタート
  • 日本語ならQwen3一択: Qwen3-14BはQwen2.5-32B相当の性能を半分以下のVRAMで動かせる
  • 必要スペック: 7Bモデルなら16GB RAMのノートPCで動く。本格運用は24GB VRAM以上のGPU推奨
  • 料金: ツールもモデルも全て無料。電気代のみ

ローカルLLMとは?クラウドAIとの根本的な違い

ローカルLLMの概念

ローカルLLMとは、ChatGPTやClaudeのようなLLM(大規模言語モデル)を、クラウドサーバーではなく自分のPCやサーバー上で直接実行することです。

クラウドAIとの違いを整理します。

データプライバシー

クラウドAIの場合、入力したデータは外部サーバーに送信されます。多くのサービスはデータを学習に使わないと明言していますが、そもそもデータが社外に出ること自体がNGという企業は少なくありません。ローカルLLMなら、データは一切外部に出ません。

コスト構造

ChatGPTのAPIは入力1Mトークンあたり$2.50〜$10(モデルによる)、Claudeは$3〜$15。月に数百万トークン使うと、月額数万円〜十数万円になることも珍しくありません。ローカルLLMは初期投資(GPU等)以外、ランニングコストは電気代のみです。

オフライン利用

ネットワーク接続が不安定な環境や、セキュリティ上インターネット接続ができない場所でも使えます。飛行機の中、工場、病院など、オフライン利用が必要な場面は意外と多いです。

性能のトレードオフ

正直なところ、2026年時点でもGPT-4oやClaude Opus 4.6のような最上位モデルの性能にはローカルLLMは届きません。ただし、7割〜8割の用途——定型的な文章作成、コード補完、要約、分類——ではローカルLLMで十分実用的です。

Ollama・LM Studio・llama.cpp——3大ツールの選び方

ツール比較

ローカルLLMを動かすツールは主に3つ。それぞれ設計思想が異なります。

Ollama——迷ったらこれ一択

CLIベースでシンプル。1コマンドでモデルのダウンロードから実行まで完結します。OpenAI互換のAPIエンドポイントを自動で提供するため、既存のアプリケーションからの移行が極めて簡単です。

  • 対象: エンジニア、CLI操作に抵抗がない人
  • 長所: 軽量、高速起動、API互換、Docker対応
  • 短所: GUIなし(Open WebUIなどを別途導入すれば解決)
  • 料金: 完全無料・オープンソース

LM Studio——GUIで直感操作

デスクトップアプリでモデルの検索・ダウンロード・チャットまで完結。Hugging Faceのモデルライブラリから好きなモデルを探してワンクリックでダウンロードできます。v0.3.23からはCPU MoEオフロードにもGUIで対応しました。

  • 対象: 非エンジニア、GUI操作を好む人
  • 長所: ビジュアル操作、RAG機能内蔵、モデル比較が楽
  • 短所: Ollamaより起動が重い、サーバー運用には不向き
  • 料金: 個人利用は無料

llama.cpp——最大性能を追求するなら

OllamaもLM Studioも内部ではllama.cppを使っています。直接使えば最新の最適化(CPU MoEオフロードなど)に最速でアクセスできます。MoEモデルではOllamaの約3.5倍の速度が出たという報告もあります。

  • 対象: 上級者、エッジデバイス、最高性能を求める人
  • 長所: 最速の最適化対応、メモリ効率最高、細かいチューニング可能
  • 短所: セットアップが複雑、自分でビルドが必要
  • 料金: 完全無料・オープンソース

結論:どれを選ぶ?

用途 おすすめツール 理由
初めてローカルLLMを試す LM Studio GUIで迷わない
アプリ開発に組み込む Ollama OpenAI互換APIが楽
CI/CDやスクリプト連携 Ollama CLIとREST APIで自動化
最高の推論速度が欲しい llama.cpp 最新最適化に即対応
社内ドキュメントとチャット LM Studio RAG機能が標準搭載
サーバーレスで運用したい Ollama Docker公式イメージあり

迷ったらOllamaから始めましょう。後からLM Studioやllama.cppに移行するのは簡単です。

Ollamaのインストールと最初の一歩

Ollamaセットアップ

Mac / Linuxの場合

# インストール(1コマンド)
curl -fsSL https://ollama.ai/install.sh | sh

# Homebrewでも可(Mac)
brew install ollama

Windowsの場合

Ollamaの公式サイトからインストーラーをダウンロードして実行します。

最初のモデルを動かす

# Qwen3-14Bをダウンロード&実行(日本語最強)
ollama run qwen3:14b

# 軽量モデルで試すなら(8GB RAMでもOK)
ollama run qwen3:4b

# コーディング用
ollama run qwen2.5-coder:7b

ollama run を実行すると、モデルが未ダウンロードなら自動でダウンロードが始まります。Qwen3-14Bのダウンロードサイズは約9GBで、100Mbps回線なら10〜15分程度です。

ダウンロード完了後、対話型のチャットインターフェースが起動します。日本語で質問してみましょう。

>>> 日本の四季について簡潔に説明してください

日本は明確な四季があることで知られています。

春(3〜5月):桜が咲き、穏やかな気候。新年度の始まり。
夏(6〜8月):梅雨の後に猛暑。花火大会やお盆。
秋(9〜11月):紅葉が美しく、過ごしやすい気温。
冬(12〜2月):寒冷で日本海側は豪雪。年末年始の行事。

四季折々の変化が日本文化、食、行事に深く根付いています。

/bye で終了します。

よく使うコマンド一覧

# インストール済みモデルの一覧
ollama list

# モデルのダウンロードのみ(実行はしない)
ollama pull gemma3:9b

# モデルの削除(ストレージ節約)
ollama rm llama3.3:70b

# APIサーバーを起動(デフォルト: http://localhost:11434)
ollama serve

# モデル情報の確認
ollama show qwen3:14b

OpenAI互換APIとして使う

Ollamaは http://localhost:11434/v1/chat/completions でOpenAI互換のAPIを提供します。既存のコードのベースURLを変えるだけで移行できます。

from openai import OpenAI

# たった1行変えるだけ
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 何でもOK
)

response = client.chat.completions.create(
    model="qwen3:14b",
    messages=[{"role": "user", "content": "Pythonで素数判定関数を書いて"}]
)

print(response.choices[0].message.content)

2026年おすすめモデルランキング(日本語対応)

おすすめモデル

2026年3月時点で、ローカルで動かすのにおすすめのモデルをランキングで紹介します。

第1位:Qwen3-14B——日本語最強のバランス型

119言語対応で、日本語性能は業界トップクラス。前世代のQwen2.5-32B相当の性能を約9GBのVRAMで動かせます。汎用チャット、文章作成、簡単なコーディングまで幅広くこなせる万能モデル。

ollama run qwen3:14b
  • 必要VRAM: 約9GB(Q4量子化時)
  • 推奨RAM: 32GB以上
  • ライセンス: Apache 2.0(商用利用OK)
  • 得意分野: 日本語チャット、文章生成、多言語対応

第2位:Qwen3-30B-A3B——コスパの怪物

総パラメータ30Bですが、MoE(Mixture of Experts)構成で実質3Bのみが稼働します。16GB VRAMで動作し、サイズの割に高い性能を発揮。「重いモデルは動かせないけど、高品質な出力が欲しい」という場面で真価を発揮します。

ollama run qwen3:30b-a3b
  • 必要VRAM: 約16GB
  • 推奨RAM: 32GB以上
  • ライセンス: Apache 2.0
  • 得意分野: コスト効率重視の汎用タスク

第3位:Gemma 3-27B——マルチモーダル対応

Googleが開発した27Bモデル。140言語対応で、128Kトークンのコンテキスト長を持ちます。画像理解(マルチモーダル)にも対応しており、テキストだけでなく画像を入力として使えるのが強みです。

ollama run gemma3:27b
  • 必要VRAM: 約20GB
  • 推奨RAM: 32GB以上
  • ライセンス: Gemma独自(商用利用可、条件あり)
  • 得意分野: マルチモーダル、長文処理

第4位:DeepSeek-V3.2——推論力の王者

671B総パラメータのうち37Bのみが稼働するMoE構成。推論(Chain-of-Thought)とエージェント機能が統合された強力なモデルですが、ローカルで動かすには大容量のVRAM(48GB以上推奨)が必要です。

ollama run deepseek-v3.2
  • 必要VRAM: 48GB以上
  • 推奨RAM: 64GB以上
  • ライセンス: MIT
  • 得意分野: 複雑な推論、数学、Agent統合

第5位:Phi-4-mini(3.8B)——最小最強

Microsoftの小型モデル。わずか3.8Bパラメータながら、MMLU 84.8%というベンチマークスコアを記録。GPUなしのCPU推論でも3〜8トークン/秒で動作するため、GPUを持っていない人の最初の一歩に最適です。

ollama run phi4-mini
  • 必要VRAM: GPUなしでもOK(8GB RAM以上)
  • ライセンス: MIT
  • 得意分野: 推論、数学(サイズ比で最高性能)

日本語性能の比較表

日本語でローカルLLMを使うなら、モデル選びは極めて重要です。

  • Qwen3系 ◎: 119言語対応、Qwen2.5の日本語の強さを完全に継承。最も安定
  • Nemotron 3 ◎: 日本語682.8Bトークンで訓練。JCommonsenseQAで92.5%
  • GLM-4.7-Flash ◎: 日本語性能が高いと評判。ただし安定性にやや課題
  • Gemma 3 ○: 140言語対応で日本語も実用的。日本語追加学習版も存在
  • DeepSeek-V3.2 ○: V3以降日本語に正式対応。実用レベル
  • Llama 3.3 △: 英語中心。日本語で質問しても英語で返ってくることがある

📌 ポイント: 日本語環境ではQwen3系を軸に選ぶのが現実的。迷ったらQwen3-14Bで間違いない。

必要なPCスペックと予算別GPU選び

ローカルLLMを快適に動かすために最も重要なのはVRAM(GPUのメモリ)です。演算性能よりもVRAM容量を優先して選びましょう。

モデルサイズ別の必要スペック

  • 1B〜3B(Phi-4-mini、SmolLM2など): VRAM 2〜3GB / RAM 8GB以上 / GPUなしでもOK
  • 4B〜7B(Qwen3-4B、Mistral 7Bなど): VRAM 4〜6GB / RAM 16GB以上 / RTX 3060以上
  • 8B〜14B(Qwen3-14B、Gemma3-9Bなど): VRAM 6〜10GB / RAM 32GB以上 / RTX 4060 Ti 16GB以上
  • 27B〜32B(Gemma3-27B、Qwen2.5-Coder-32Bなど): VRAM 16〜22GB / RAM 32GB以上 / RTX 4090以上
  • 70B以上: VRAM 40GB以上 / RAM 64GB以上 / 複数GPUまたはA100/H100

予算別のおすすめGPU(2026年3月時点)

約4万円(中古): NVIDIA RTX 3060 12GB 7Bモデルまでの入門用。中古市場で手に入りやすく、ローカルLLM入門には十分です。

約7万円: NVIDIA RTX 4060 Ti 16GB 14Bモデルまで実用的に動かせます。コスパが最も良い選択肢。同価格帯のRTX 4070(12GB VRAM)よりもローカルLLM用途では上。

約30万円: NVIDIA RTX 4090 24GB 32Bモデルまで快適に動作。本格的にローカルLLMを活用するなら、現時点での最適解です。

約40万円: NVIDIA RTX 5090 32GB 大規模モデルを余裕を持って実行可能。予算に余裕があるならこちら。

Apple Silicon(Mac)の場合

M1/M2/M3/M4のMacは、統合メモリアーキテクチャのおかげでローカルLLMとの相性が良好です。CPUとGPUが同じメモリプールを共有するため、PCIe転送のボトルネックがありません。

  • M4 MacBook Air(16GB): 7B〜14Bモデルが実用速度で動作
  • M4 Pro Mac mini(36GB): 32Bモデルも快適
  • M4 Max MacBook Pro(64GB〜): 70Bモデルも動作可能

Apple SiliconではMLXフレームワークを使うとllama.cppより20〜50%高速に推論できます。ただしOllamaはllama.cppベースなので、最大速度を求めるならMLX版のモデルを別途使う手もあります。

GPUなしでも始められる

GPUがなくても、CPU推論でローカルLLMは動きます。Phi-4-mini(3.8B)やSmolLM2(1.7B)のような小型モデルなら、CPU推論でも3〜8トークン/秒で生成可能。速度は遅いですが、「まず体験してみる」には十分です。

DDR5メモリ、12コア以上のCPU、AVX-512対応(Intel Ice Lake以降、AMD Zen 4以降)があると、CPU推論の速度がかなり改善されます。

実務で使える活用テクニック5選

1. Cursorと連携してコーディング費用をゼロにする

CursorはOllama経由でローカルモデルを使用できます。設定でAPI URLを http://localhost:11434/v1 に変更し、モデルを qwen2.5-coder:32b に設定するだけ。CursorのPro料金(月$20)は残りますが、APIの従量課金がゼロになります。

2. Open WebUIでChatGPT風のインターフェース

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

http://localhost:3000 にアクセスすると、ChatGPTそっくりのUIでローカルLLMと対話できます。マルチユーザー対応なので、社内のチーム全員で使えます。

3. RAG(検索拡張生成)で社内ドキュメントと対話

LM StudioにはRAG機能が標準搭載されています。PDFやテキストファイルをドラッグ&ドロップするだけで、社内文書の内容をもとにAIが回答してくれます。

OllamaでRAGを組むなら、LangChainやLlamaIndexと組み合わせます。

from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings

llm = Ollama(model="qwen3:14b")
embeddings = OllamaEmbeddings(model="qwen3:14b")

4. Modelfileでカスタム設定

Ollamaでは Modelfile を作成してモデルの振る舞いをカスタマイズできます。

FROM qwen3:14b

PARAMETER temperature 0.7
PARAMETER num_ctx 8192

SYSTEM """
あなたは日本語で応答する優秀なアシスタントです。
回答は簡潔に、箇条書きを活用してください。
技術的な質問には具体的なコード例を含めてください。
"""
ollama create my-assistant -f Modelfile
ollama run my-assistant

5. 複数モデルの使い分け

用途によってモデルを切り替えるのがベストプラクティスです。

# 日本語チャット・文章作成
ollama run qwen3:14b

# コーディング
ollama run qwen2.5-coder:32b

# 軽量タスク(分類・抽出)
ollama run phi4-mini

# 画像を含む質問
ollama run gemma3:27b

よくある質問(FAQ)

Q: ローカルLLMとChatGPTの性能差はどのくらい?

A: 用途によります。定型的な文章作成、要約、分類ではローカルLLMのQwen3-14Bでも十分実用的。ただし、高度な推論や複雑なコーディングではGPT-4oやClaude Opus 4.6に及びません。体感としては「7〜8割の用途でクラウドAIと遜色ない」レベルです。

Q: GPU(グラフィックボード)がないと動かせない?

A: GPUなしでもCPU推論で動かせます。Phi-4-mini(3.8B)やQwen3-4Bのような小型モデルなら、GPUなしでも3〜8トークン/秒で生成可能。速度は遅めですが、試す分には十分です。

Q: MacでもローカルLLMは動く?

A: Apple SiliconのMacはローカルLLMとの相性が非常に良いです。統合メモリアーキテクチャのおかげで、M4 MacBook Air(16GB)でも14Bモデルが快適に動きます。OllamaもLM StudioもmacOS対応です。

Q: OllamaとLM Studioは両方インストールしていい?

A: 問題ありません。ただし、同じモデルを両方でダウンロードするとストレージを二重に消費します。メインのツールを1つ決めて使うのがおすすめです。

Q: ローカルLLMでファインチューニング(追加学習)はできる?

A: できます。ただしOllamaやLM Studio単体ではファインチューニングは行えません。Unslothやaxolotlなどの専用ツールを使います。LoRA(Low-Rank Adaptation)という手法なら、RTX 4060 Ti 16GBでも7Bモデルのファインチューニングが可能です。

Q: セキュリティ面で注意することは?

A: OllamaのAPIサーバーはデフォルトで localhost のみに公開されます。社内LANに公開する場合は、ファイアウォールの設定と認証の追加を忘れずに。モデル自体はオープンソースなので、バックドアの心配は基本的にありません。ただし、ダウンロードは必ず公式リポジトリ(Ollama Library、Hugging Face)から行いましょう。

Q: ストレージはどのくらい必要?

A: モデル1つあたり約2GB(3Bモデル)〜40GB(70Bモデル)程度。複数モデルを使い分けるなら、最低でもSSDに100GB以上の空き容量を確保しておくと安心です。

Q: ローカルLLMは商用利用できる?

A: モデルのライセンスによります。Qwen3(Apache 2.0)、DeepSeek(MIT)、Phi-4(MIT)は商用利用OK。Gemma 3はGoogle独自ライセンスで条件あり。Llama 3.3はMeta独自ライセンスで、月間アクティブユーザー7億人以上の場合は別途許諾が必要です。商用利用前にライセンスを必ず確認してください。