FlashAttention (フラッシュアテンション)
読み: ふらっしゅあてんしょん
最終更新: 2026-06-26・AI PICKS編集部
定義
FlashAttentionとはTransformerの注意機構をGPUメモリ階層を活かして高速・省メモリで実行するアルゴリズムのこと。長文脈処理の計算コストを大幅に削減する。
FlashAttention (フラッシュアテンション)とは — 詳しく解説
FlashAttentionは2022年にTri Daoらが発表した、GPU向けAttention計算の最適化アルゴリズム。従来のTransformerは系列長の2乗に比例してVRAMを消費するため、長文脈の学習・推論がボトルネックとなっていた。FlashAttentionはGPUのHBM(高帯域メモリ)とオンチップSRAM間のデータ転送をタイリング手法で最小化し、メモリ使用量を系列長に対して線形化しつつ、計算結果は数値的に同一のまま保つ点が革新的だ。 2026年現在はFlashAttention-3まで進化し、PyTorch・vLLM・Hugging Face Transformersに標準統合済み。AI PICKSでLLM APIを実運用評価する際、バックエンドでFlashAttentionが有効かどうかが推論速度とコストに直結する重要指標となっている。現場での相場感では、FlashAttention対応環境(H100/A100)と非対応環境で、同一モデルの推論コストが2〜4倍変わるケースが報告されている。コンテキストウィンドウが32K以上になると恩恵が顕著で、ファインチューニング時の最大バッチサイズも劇的に向上する。逆に短い文脈では実装オーバーヘッドが逆効果になる場合もあるため、用途に応じた選択が必要だ。
FlashAttention (フラッシュアテンション)の使用例
- vLLMでLlama-3-70Bを動かす際、FlashAttention-2を有効にしたところスループットが3倍に向上し、A100の必要枚数を半減できた。
- 128Kトークンの長文脈RAGを構築する場合、FlashAttention未対応環境ではOOMエラーが頻発するため、フレームワーク選定時に要確認。
FlashAttention (フラッシュアテンション)に関連するAIツール
関連用語
「インフラ・学習」の他の用語
既存の AI モデルを 自社データで追加学習させて 専門特化させる方法。
データから法則を自動学習させる AI 技術の総称。 ディープラーニングや LLM もここに含まれる。
ニューラルネットワークを多層化した機械学習手法。 LLM / 画像認識 / 音声認識 の基盤技術。
Self-Attention 機構を中核とするニューラルネット構造。 LLM / 画像 / 音声 すべての基盤。
入力系列のどこに注目すべきかを 動的に重み付けする仕組み。 Transformer の中核。
LoRAとは、大規模モデルの重みを凍結したまま低ランク行列ペアを追加挿入することで、全パラメータの1%以下の計算コストで特定ドメインへの適応を実現するファインチューニング手法のこと。
AI用語辞典をすべて見てみませんか
12カテゴリ・152語以上を体系的に整理しています
辞典トップへ