FP8 (8ビット浮動小数点)
読み: えふぴーえいと
最終更新: 2026-06-27・AI PICKS編集部
定義
FP8とは8ビットの浮動小数点形式でAIモデルの数値を表現する量子化技術のこと。従来のFP32・BF16より演算速度と省メモリを両立し、大規模モデルの学習・推論コストを大幅に削減する。
FP8 (8ビット浮動小数点)とは — 詳しく解説
FP8(8ビット浮動小数点)は、AIモデルのパラメータや活性化値を8ビットで表現する数値フォーマット。E4M3(指数4ビット・仮数3ビット)とE5M2(指数5ビット・仮数2ビット)の2種類があり、前者は精度重視、後者は学習安定性重視で用途別に使い分ける。NVIDIA H100以降のGPUがハードウェアネイティブサポートを持ち、BF16比で約2倍のスループット向上が期待できる。 2026年現在、実運用での落とし穴として頻出するのが「数値オーバーフロー」問題だ。E5M2は表現範囲が広い反面、小さい値の精度が落ちるため、学習中にgradient scalingの調整が欠かせない。推論時の量子化誤差によるベンチマーク劣化は平均0.5〜2%程度だが、長文推論や数学タスクでは5%以上落ちるケースもある。 コスト面の相場感として、H100 SXM(80GB)1枚でのFP8学習はBF16比で約2倍の実効バッチサイズが取れ、クラウド単価($2〜3/時)を考慮すると70Bクラスのファインチューニングが現実的になった。現場では「まずBF16で動作確認→FP8に切り替えてコスト最適化」という2段階アプローチが定番。TransformerEngineライブラリ(PyTorch経由)での導入が最も整備されており、LLaMA系・Mistral系への適用事例が豊富。
FP8 (8ビット浮動小数点)の使用例
- H100でLLaMA-3 70BをFP8ファインチューニング:BF16比でVRAM使用量を40%削減、学習時間を48時間→28時間に短縮。gradient scalingのスケールファクター調整がポイント。
- 推論サービスをFP8量子化:大規模モデルのレイテンシを35%改善。日本語長文要約で精度が1.8%低下したためE4M3形式に変更して解決した事例。
FP8 (8ビット浮動小数点)に関連するAIツール
関連用語
「インフラ・学習」の他の用語
既存の AI モデルを 自社データで追加学習させて 専門特化させる方法。
データから法則を自動学習させる AI 技術の総称。 ディープラーニングや LLM もここに含まれる。
ニューラルネットワークを多層化した機械学習手法。 LLM / 画像認識 / 音声認識 の基盤技術。
Self-Attention 機構を中核とするニューラルネット構造。 LLM / 画像 / 音声 すべての基盤。
入力系列のどこに注目すべきかを 動的に重み付けする仕組み。 Transformer の中核。
LoRAとは、大規模モデルの重みを凍結したまま低ランク行列ペアを追加挿入することで、全パラメータの1%以下の計算コストで特定ドメインへの適応を実現するファインチューニング手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・202語以上を体系的に整理しています
辞典トップへ