量子化 (Quantization)
読み: りょうしか
最終更新: 2026-06-25・AI PICKS編集部
定義
量子化とはAIモデルの重みパラメータを低ビット精度に圧縮し、推論速度の向上・メモリ使用量の削減を実現する技術のこと。
量子化 (Quantization)とは — 詳しく解説
量子化とは、ニューラルネットワークの重みや活性化関数を32bit浮動小数点(FP32)から8bit整数(INT8)や4bit(NF4)などの低精度フォーマットに変換することで、モデルの推論コストを大幅に削減する手法。2026年現在、LLaMAやMistralベースのオープンソースモデルをローカル実行する際にほぼ必須の工程となっており、GGUFフォーマット(llama.cpp)やBitsAndBytesライブラリが現場で広く使われている。AI PICKSの実運用観点では、Q4_K_MとQ5_K_Mの選択が最頻出の意思決定ポイントで、精度劣化を最小化しつつVRAM16GB以下の環境に収めるならQ5_K_Mが相場感として定番。落とし穴は「量子化後の評価を省略した結果、特定タスクで精度が10%以上落ちることに本番で気づく」ケース。2026年時点の現場では、AWQやGPTQといった重み量子化に加え、KVキャッシュの量子化も普及しており、長文コンテキスト処理時のメモリ効率が劇的に向上している。コスト感としては、自前GPU運用ならQ4で70Bモデルを48GB VRAM(H100相当)に収めてAPI代ゼロ運用も現実的。
量子化 (Quantization)の使用例
- Ollama上でLlama 3 70BをQ4_K_M量子化で動かすと、FP16比でVRAM消費が約半分になりRTX 4090単体での推論が可能になる。
- BitsAndBytesのnf4量子化を使えばHugging FaceモデルをGoogle Colab無料枠(VRAM15GB)でfine-tuningできる。
量子化 (Quantization)に関連するAIツール
関連用語
「インフラ・学習」の他の用語
既存の AI モデルを 自社データで追加学習させて 専門特化させる方法。
データから法則を自動学習させる AI 技術の総称。 ディープラーニングや LLM もここに含まれる。
ニューラルネットワークを多層化した機械学習手法。 LLM / 画像認識 / 音声認識 の基盤技術。
Self-Attention 機構を中核とするニューラルネット構造。 LLM / 画像 / 音声 すべての基盤。
入力系列のどこに注目すべきかを 動的に重み付けする仕組み。 Transformer の中核。
LoRAとは、大規模モデルの重みを凍結したまま低ランク行列ペアを追加挿入することで、全パラメータの1%以下の計算コストで特定ドメインへの適応を実現するファインチューニング手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・102語以上を体系的に整理しています
辞典トップへ