vLLM (推論サーバ)
読み: ぶいえるえるえむ(すいろんさーば)
最終更新: 2026-06-26・AI PICKS編集部
定義
vLLMとはオープンソースのLLM推論フレームワークのこと。独自のPagedAttentionアルゴリズムで高スループットを実現し、自社GPUサーバ上にOpenAI互換APIを構築できる。
vLLM (推論サーバ)とは — 詳しく解説
vLLMはLMSYS Labが開発したオープンソースのLLM推論フレームワーク。独自の「PagedAttention」アルゴリズムでGPUのKVキャッシュを仮想メモリのように動的管理し、連続バッチ処理(Continuous Batching)と組み合わせることでHuggingFace Transformers比で最大24倍のスループットを実現する。OpenAI互換APIをネイティブ内蔵するため、既存のChatGPT APIクライアントをほぼ無改修で転用できる点が実運用上の最大の強みだ。 2026年の現場での選び方:単一モデルを高負荷で動かすならvLLMが第一候補。テンソル並列でマルチGPU構成にスケールアウトでき、A100×8枚構成でLlama 3.1 70Bを商用レベルで捌ける。相場感はA100 SXM4×8のクラウドオンデマンドで月40〜60万円(GCP/AWS)。小規模なら4-bit量子化+RTX 4090×2枚で月5万円台も現実的。 落とし穴は3点。①LoRA動的ロードはモデル数が増えるとGPUメモリを圧迫しOOMになりやすい。②Flash Attention 2との組み合わせはCUDAドライバ依存で環境構築が煩雑。③AWQ/GPTQ量子化はスループット改善幅がモデルによって大きくばらつく。AI PICKSでは本番前にLM Studioでローカル検証し、次にRunPod上のvLLMで段階移行する構成を推奨している。
vLLM (推論サーバ)の使用例
- ローカルでLlama 3を立ち上げる場合は `python -m vllm.entrypoints.openai.api_server --model meta-llama/Meta-Llama-3-8B` を実行するだけでOpenAI互換エンドポイントが起動する。
- RAGパイプラインのバックエンドにvLLMを使い、LangChainから `openai.OpenAI(base_url='http://localhost:8000/v1')` で接続する構成が現場では標準的な自社ホスティング手法だ。
vLLM (推論サーバ)に関連するAIツール
関連用語
「インフラ・学習」の他の用語
既存の AI モデルを 自社データで追加学習させて 専門特化させる方法。
データから法則を自動学習させる AI 技術の総称。 ディープラーニングや LLM もここに含まれる。
ニューラルネットワークを多層化した機械学習手法。 LLM / 画像認識 / 音声認識 の基盤技術。
Self-Attention 機構を中核とするニューラルネット構造。 LLM / 画像 / 音声 すべての基盤。
入力系列のどこに注目すべきかを 動的に重み付けする仕組み。 Transformer の中核。
LoRAとは、大規模モデルの重みを凍結したまま低ランク行列ペアを追加挿入することで、全パラメータの1%以下の計算コストで特定ドメインへの適応を実現するファインチューニング手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ