Question 1

FlashAttention (フラッシュアテンション)とは何ですか？

Accepted Answer

FlashAttentionとはTransformerの注意機構をGPUメモリ階層を活かして高速・省メモリで実行するアルゴリズムのこと。長文脈処理の計算コストを大幅に削減する。 FlashAttentionは2022年にTri Daoらが発表した、GPU向けAttention計算の最適化アルゴリズム。従来のTransformerは系列長の2乗に比例してVRAMを消費するため、長文脈の学習・推論がボトルネックとなっていた。FlashAttentionはGPUのHBM（高帯域メモリ）とオンチップSRAM間のデータ転送をタイリング手法で最小化し、メモリ使用量を系列長に対して線形

Question 2

FlashAttention (フラッシュアテンション)の使い方や活用例を教えてください

Accepted Answer

代表的な活用例は次のとおりです。vLLMでLlama-3-70Bを動かす際、FlashAttention-2を有効にしたところスループットが3倍に向上し、A100の必要枚数を半減できた。 / 128Kトークンの長文脈RAGを構築する場合、FlashAttention未対応環境ではOOMエラーが頻発するため、フレームワーク選定時に要確認。詳細な解説はFlashAttention (フラッシュアテンション)の詳細ページをご覧ください。

Question 3

FlashAttention (フラッシュアテンション)とLLM (大規模言語モデル)の違いは何ですか？

Accepted Answer

FlashAttention (フラッシュアテンション)とLLM (大規模言語モデル)はAI用語として関連していますが、役割や使用場面が異なります。FlashAttention (フラッシュアテンション)はFlashAttentionとはTransformerの注意機構をGPUメモリ階層を活かして高速・省メモリで実行するアルゴリズムのこと。長文脈処理の計算コストを大幅に削減する。詳しくは関連用語の解説ページをご参照ください。

FlashAttention (フラッシュアテンション)

定義

FlashAttention (フラッシュアテンション)とは — 詳しく解説

FlashAttention (フラッシュアテンション)の使用例

FlashAttention (フラッシュアテンション)に関連するAIツール

関連用語

「インフラ・学習」の他の用語

AI用語辞典をすべて見てみませんか