AI PICKS
AI用語辞典インフラ・学習

vLLM (推論サーバ)

読み: ぶいえるえるえむ(すいろんさーば)

最終更新: 2026-06-26・AI PICKS編集部

定義

vLLMとはオープンソースのLLM推論フレームワークのこと。独自のPagedAttentionアルゴリズムで高スループットを実現し、自社GPUサーバ上にOpenAI互換APIを構築できる。

vLLM (推論サーバ)とは — 詳しく解説

vLLMはLMSYS Labが開発したオープンソースのLLM推論フレームワーク。独自の「PagedAttention」アルゴリズムでGPUのKVキャッシュを仮想メモリのように動的管理し、連続バッチ処理(Continuous Batching)と組み合わせることでHuggingFace Transformers比で最大24倍のスループットを実現する。OpenAI互換APIをネイティブ内蔵するため、既存のChatGPT APIクライアントをほぼ無改修で転用できる点が実運用上の最大の強みだ。 2026年の現場での選び方:単一モデルを高負荷で動かすならvLLMが第一候補。テンソル並列でマルチGPU構成にスケールアウトでき、A100×8枚構成でLlama 3.1 70Bを商用レベルで捌ける。相場感はA100 SXM4×8のクラウドオンデマンドで月40〜60万円(GCP/AWS)。小規模なら4-bit量子化+RTX 4090×2枚で月5万円台も現実的。 落とし穴は3点。①LoRA動的ロードはモデル数が増えるとGPUメモリを圧迫しOOMになりやすい。②Flash Attention 2との組み合わせはCUDAドライバ依存で環境構築が煩雑。③AWQ/GPTQ量子化はスループット改善幅がモデルによって大きくばらつく。AI PICKSでは本番前にLM Studioでローカル検証し、次にRunPod上のvLLMで段階移行する構成を推奨している。

vLLM (推論サーバ)の使用例

  • ローカルでLlama 3を立ち上げる場合は `python -m vllm.entrypoints.openai.api_server --model meta-llama/Meta-Llama-3-8B` を実行するだけでOpenAI互換エンドポイントが起動する。
  • RAGパイプラインのバックエンドにvLLMを使い、LangChainから `openai.OpenAI(base_url='http://localhost:8000/v1')` で接続する構成が現場では標準的な自社ホスティング手法だ。

vLLM (推論サーバ)に関連するAIツール

関連用語

インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ