AI PICKS
AI用語辞典インフラ・学習

量子化 (Quantization)

読み: りょうしか

最終更新: 2026-06-25・AI PICKS編集部

定義

量子化とはAIモデルの重みパラメータを低ビット精度に圧縮し、推論速度の向上・メモリ使用量の削減を実現する技術のこと。

量子化 (Quantization)とは — 詳しく解説

量子化とは、ニューラルネットワークの重みや活性化関数を32bit浮動小数点(FP32)から8bit整数(INT8)や4bit(NF4)などの低精度フォーマットに変換することで、モデルの推論コストを大幅に削減する手法。2026年現在、LLaMAやMistralベースのオープンソースモデルをローカル実行する際にほぼ必須の工程となっており、GGUFフォーマット(llama.cpp)やBitsAndBytesライブラリが現場で広く使われている。AI PICKSの実運用観点では、Q4_K_MとQ5_K_Mの選択が最頻出の意思決定ポイントで、精度劣化を最小化しつつVRAM16GB以下の環境に収めるならQ5_K_Mが相場感として定番。落とし穴は「量子化後の評価を省略した結果、特定タスクで精度が10%以上落ちることに本番で気づく」ケース。2026年時点の現場では、AWQやGPTQといった重み量子化に加え、KVキャッシュの量子化も普及しており、長文コンテキスト処理時のメモリ効率が劇的に向上している。コスト感としては、自前GPU運用ならQ4で70Bモデルを48GB VRAM(H100相当)に収めてAPI代ゼロ運用も現実的。

量子化 (Quantization)の使用例

  • Ollama上でLlama 3 70BをQ4_K_M量子化で動かすと、FP16比でVRAM消費が約半分になりRTX 4090単体での推論が可能になる。
  • BitsAndBytesのnf4量子化を使えばHugging FaceモデルをGoogle Colab無料枠(VRAM15GB)でfine-tuningできる。

量子化 (Quantization)に関連するAIツール

関連用語

インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・102語以上を体系的に整理しています

辞典トップへ