AI PICKS
AI用語辞典インフラ・学習

FlashAttention (フラッシュアテンション)

読み: ふらっしゅあてんしょん

最終更新: 2026-06-26・AI PICKS編集部

定義

FlashAttentionとはTransformerの注意機構をGPUメモリ階層を活かして高速・省メモリで実行するアルゴリズムのこと。長文脈処理の計算コストを大幅に削減する。

FlashAttention (フラッシュアテンション)とは — 詳しく解説

FlashAttentionは2022年にTri Daoらが発表した、GPU向けAttention計算の最適化アルゴリズム。従来のTransformerは系列長の2乗に比例してVRAMを消費するため、長文脈の学習・推論がボトルネックとなっていた。FlashAttentionはGPUのHBM(高帯域メモリ)とオンチップSRAM間のデータ転送をタイリング手法で最小化し、メモリ使用量を系列長に対して線形化しつつ、計算結果は数値的に同一のまま保つ点が革新的だ。 2026年現在はFlashAttention-3まで進化し、PyTorch・vLLM・Hugging Face Transformersに標準統合済み。AI PICKSでLLM APIを実運用評価する際、バックエンドでFlashAttentionが有効かどうかが推論速度とコストに直結する重要指標となっている。現場での相場感では、FlashAttention対応環境(H100/A100)と非対応環境で、同一モデルの推論コストが2〜4倍変わるケースが報告されている。コンテキストウィンドウが32K以上になると恩恵が顕著で、ファインチューニング時の最大バッチサイズも劇的に向上する。逆に短い文脈では実装オーバーヘッドが逆効果になる場合もあるため、用途に応じた選択が必要だ。

FlashAttention (フラッシュアテンション)の使用例

  • vLLMでLlama-3-70Bを動かす際、FlashAttention-2を有効にしたところスループットが3倍に向上し、A100の必要枚数を半減できた。
  • 128Kトークンの長文脈RAGを構築する場合、FlashAttention未対応環境ではOOMエラーが頻発するため、フレームワーク選定時に要確認。

FlashAttention (フラッシュアテンション)に関連するAIツール

関連用語

インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか

12カテゴリ・152語以上を体系的に整理しています

辞典トップへ