build/html/steel__attention_8h_source.html

// Copyright © 2024 Apple Inc.


using namespace mlx::steel;


// GEMM kernels


constant bool align_Q [[function_constant(200)]];

constant bool align_K [[function_constant(201)]];


template <typename T>


struct TransformScale {

  T scale;

  METAL_FUNC TransformScale(T scale_) : scale(scale_) {}


  METAL_FUNC T apply(T x) const {

    return scale * x;

  }


};


struct MaxOp {

  template <typename T>


  METAL_FUNC static constexpr T apply(T x, T y) {

    return metal::max(x, y);

  }


};


struct SumOp {

  template <typename T>


  METAL_FUNC static constexpr T apply(T x, T y) {

    return x + y;

  }


};


struct MulOp {

  template <typename T>


  METAL_FUNC static constexpr T apply(T x, T y) {

    return x * y;

  }


};


struct SubOp {

  template <typename T>


  METAL_FUNC static constexpr T apply(T x, T y) {

    return x - y;

  }


};


struct ExpSubOp {

  template <typename T>


  METAL_FUNC static constexpr T apply(T x, T y) {

    return fast::exp2(x - y);

  }


};


struct DivOp {

  template <typename T>


  METAL_FUNC static constexpr T apply(T x, T y) {

    return x / y;

  }


};


// clang-format off

template <

    typename T,

    int BQ,

    int BK,

    int BD,

    int WM,

    int WN,

    typename AccumType = float>


[[kernel, max_total_threads_per_threadgroup(WM * WN * 32)]] void attention(

    const device T* Q [[buffer(0)]],

    const device T* K [[buffer(1)]],

    const device T* V [[buffer(2)]],

    device T* O [[buffer(3)]],

    const constant AttnParams* params [[buffer(4)]],

    uint simd_lane_id [[thread_index_in_simdgroup]],

    uint simd_group_id [[simdgroup_index_in_threadgroup]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint3 lid [[thread_position_in_threadgroup]]) { // clang-format on


  // Pacifying compiler

  (void)lid;


  // Move to correct block

  ulong3 tidl{tid.x, tid.y, tid.z};


  Q += tidl.z * params->Q_strides[0] + // Batch

      tidl.y * params->Q_strides[1] + // Head

      tidl.x * BQ * params->Q_strides[2]; // Seqeunce


  ulong kv_head_idx = int(tid.y) / params->gqa_factor;

  K += tidl.z * params->K_strides[0] + // Batch

      kv_head_idx * params->K_strides[1]; // Head


  V += tidl.z * params->V_strides[0] + // Batch

      kv_head_idx * params->V_strides[1]; // Head


  O += tidl.z * params->O_strides[0] + // Batch

      tidl.y * params->O_strides[1] + // Head

      tidl.x * BQ * params->O_strides[2]; // Seqeunce


  // Prepare threadgroup memory

  constexpr short padQ = 16 / sizeof(T);

  constexpr short padK = 16 / sizeof(T);

  constexpr short padV = 16 / sizeof(T);


  constexpr short LDQ_tgp = BD + padQ;

  constexpr short LDK_tgp = BK + padK;

  constexpr short LDV_tgp = BD + padV;


  constexpr short tgp_mem_0 = (BK + padK) * (BD);

  constexpr short tgp_mem_1 = BK * (BD + padV);

  constexpr short tgp_mem_s = tgp_mem_0 > tgp_mem_1 ? tgp_mem_0 : tgp_mem_1;


  threadgroup T Q_smem[BQ * (BD + padQ)];

  threadgroup T KV_smem[tgp_mem_s];


  threadgroup T* Qs = Q_smem;

  threadgroup T* Ks = KV_smem;

  threadgroup T* Vs = KV_smem;


  // Prepare block loaders

  using QBlockLoader = BlockLoaderT<

      /* typename T = */ T,

      /* short BROWS = */ BQ,

      /* short BCOLS = */ BD,

      /* short kDstStrRow = */ LDQ_tgp,

      /* short kDstStrCol = */ 1,

      /* short reduction_dim = */ 1,

      /* short tgp_size = */ WM * WN * 32>;


  // K is loaded in transposed

  using KBlockLoader = BlockLoaderT<

      /* typename T = */ T,

      /* short BROWS = */ BK,

      /* short BCOLS = */ BD,

      /* short kDstStrRow = */ 1,

      /* short kDstStrCol = */ LDK_tgp,

      /* short reduction_dim = */ 0,

      /* short tgp_size = */ WM * WN * 32>;


  using VBlockLoader = BlockLoaderT<

      /* typename T = */ T,

      /* short BROWS = */ BK,

      /* short BCOLS = */ BD,

      /* short kDstStrRow = */ LDV_tgp,

      /* short kDstStrCol = */ 1,

      /* short reduction_dim = */ 0,

      /* short tgp_size = */ WM * WN * 32>;


  QBlockLoader loader_q(

      Q, params->Q_strides[2], Qs, simd_group_id, simd_lane_id);

  KBlockLoader loader_k(

      K, params->K_strides[2], Ks, simd_group_id, simd_lane_id);

  VBlockLoader loader_v(

      V, params->V_strides[2], Vs, simd_group_id, simd_lane_id);


  TransformScale<T> ts(static_cast<T>(params->scale * 1.44269504089));


  // Prepare MMA tiles

  constexpr short kFragSize = 8; // MMAFrag size

  using MMAFrag_acc_t = BaseMMAFrag<AccumType, kFragSize, kFragSize>;


  constexpr int kNWarps = WM * WN;

  static_assert(

      BQ >= (kNWarps * kFragSize) && BQ % (kNWarps * kFragSize) == 0,

      "Each simdgroup must host atleast 1 simdgroup matrix along Q sequence.");


  // Q seq frags per warp

  constexpr int TQ = BQ / (kNWarps * kFragSize);

  // KV sequence frags (all warps load the same frags)

  constexpr int TK = BK / kFragSize;

  // HeadDim frags (all warps load the same frags)

  constexpr int TD = BD / kFragSize;


  static_assert(TQ == 1, "Check TQ");


  MMATile<AccumType, TQ, 1, MMAFrag_acc_t> Qtile;

  MMATile<AccumType, 1, TK, MMAFrag_acc_t> Ktile;

  MMATile<AccumType, TQ, TK, MMAFrag_acc_t> Stile;

  MMATile<AccumType, 1, 1, MMAFrag_acc_t> Vtile;

  MMATile<AccumType, TQ, TD, MMAFrag_acc_t> Otile;


  Otile.clear();


  // Prepare mma tile offsets

  const short2 simd_coord = MMAFrag_acc_t::get_coord(simd_lane_id);

  const short sm = simd_coord.y;

  const short sn = simd_coord.x;

  const short tm = kFragSize * TQ * simd_group_id;


  const short Qs_offset = (tm + sm) * LDQ_tgp + sn;

  const short Ks_offset = sm * LDK_tgp + sn;

  const short Vs_offset = sm * LDV_tgp + sn;


  constexpr short Qs_tile_stride = kFragSize;

  constexpr short Ks_tile_stride = kFragSize * LDK_tgp;


  threadgroup_barrier(mem_flags::mem_threadgroup);


  // Load Q blocks apply scale

  if (!align_Q && int(tid.x) == (params->NQ_aligned)) {

    loader_q.load_safe(short2(BD, params->qL - params->NQ_aligned * BQ));

  } else {

    loader_q.load_unsafe();

  }

  loader_q.apply_inplace_op(ts);


  // Init row reduction variables

  constexpr short kRowsPT = decltype(Stile)::kRowsPerThread;


  AccumType max_score[kRowsPT];

  AccumType sum_score[kRowsPT] = {0};


  // Init to -Inf

  STEEL_PRAGMA_UNROLL

  for (short i = 0; i < kRowsPT; ++i) {

    max_score[i] = Limits<AccumType>::min;

  }


  // Loop over KV seq length

  for (int kb = 0; kb < params->NK; kb++) {

    // Load K block and apply scale

    threadgroup_barrier(mem_flags::mem_threadgroup);

    if (!align_K && kb == (params->NK_aligned)) {

      loader_k.load_safe(short2(BD, params->kL - params->NK_aligned * BK));

    } else {

      loader_k.load_unsafe();

    }


    // Do S = Q @ K.T

    Stile.clear();


    threadgroup_barrier(mem_flags::mem_threadgroup);


    STEEL_PRAGMA_UNROLL

    for (short dd = 0; dd < TD; dd++) {

      simdgroup_barrier(mem_flags::mem_none);


      Qtile.template load<T, 1, 1, LDQ_tgp, 1>(

          &Qs[Qs_offset + dd * Qs_tile_stride]);

      Ktile.template load<T, 1, 1, LDK_tgp, 1>(

          &Ks[Ks_offset + dd * Ks_tile_stride]);


      simdgroup_barrier(mem_flags::mem_none);


      tile_matmad(Stile, Qtile, Ktile, Stile);

    }


    // Mask out of length sequence

    if (!align_K && kb == (params->NK_aligned)) {

      using stile_t = decltype(Stile);

      using selem_t = typename stile_t::elem_type;

      constexpr auto neg_inf = -metal::numeric_limits<selem_t>::infinity();

      const short lim = params->kL - params->NK_aligned * BK;


      STEEL_PRAGMA_UNROLL

      for (short i = 0; i < stile_t::kTileRows; i++) {

        STEEL_PRAGMA_UNROLL

        for (short j = 0; j < stile_t::kTileCols; j++) {

          short col_pos = sn + (j * stile_t::kFragCols);

          STEEL_PRAGMA_UNROLL

          for (short jj = 0; jj < stile_t::MMAFrag_t::kElemCols; jj++) {

            if ((col_pos + jj) >= lim) {

              Stile.frag_at(i, j)[jj] = neg_inf;

            }

          }

        }

      }

    }


    threadgroup_barrier(mem_flags::mem_threadgroup);


    // Load V blocks

    if (!align_K && kb == (params->NK_aligned)) {

      loader_v.load_safe(short2(BD, params->kL - params->NK_aligned * BK));

    } else {

      loader_v.load_unsafe();

    }


    // Do softmax


    // Temp variables

    AccumType new_max[kRowsPT];

    AccumType factor[kRowsPT];

    STEEL_PRAGMA_UNROLL

    for (short i = 0; i < kRowsPT; ++i) {

      new_max[i] = max_score[i];

    }


    // Row max

    Stile.template row_reduce<MaxOp>(new_max);


    // exp(Si - rowmax(Si))

    Stile.template row_bin_op<ExpSubOp>(new_max);


    // Factor exp(rowmax(Si) - rowmax(Si-1))

    STEEL_PRAGMA_UNROLL

    for (short i = 0; i < kRowsPT; ++i) {

      factor[i] = fast::exp2(max_score[i] - new_max[i]);

    }


    // Save max for next iteration

    STEEL_PRAGMA_UNROLL

    for (short i = 0; i < kRowsPT; ++i) {

      max_score[i] = new_max[i];

    }


    // Row Sum

    AccumType sum_score_tmp[kRowsPT] = {0};

    Stile.template row_reduce<SumOp>(sum_score_tmp);


    // Update norm

    STEEL_PRAGMA_UNROLL

    for (short i = 0; i < kRowsPT; ++i) {

      sum_score[i] = sum_score[i] * factor[i] + sum_score_tmp[i];

    }


    // Update O

    Otile.template row_bin_op<MulOp>(factor);


    // Load V into registers

    threadgroup_barrier(mem_flags::mem_threadgroup);


    STEEL_PRAGMA_UNROLL

    for (short iq = 0; iq < TQ; iq++) {

      STEEL_PRAGMA_UNROLL

      for (short id = 0; id < TD; id++) {

        STEEL_PRAGMA_UNROLL

        for (short ik = 0; ik < TK; ik++) {

          if constexpr (BD == 128) {

            simdgroup_barrier(mem_flags::mem_none);

          }


          const short kk = ik * kFragSize;

          const short dd = id * kFragSize;


          Vtile.template load<T, 1, 1, LDV_tgp, 1>(

              &Vs[Vs_offset + kk * LDV_tgp + dd]);


          if constexpr (BD == 128) {

            simdgroup_barrier(mem_flags::mem_none);

          }


          MMAFrag_acc_t::mma(

              Otile.frag_at(iq, id),

              Stile.frag_at(iq, ik),

              Vtile.frag_at(0, 0),

              Otile.frag_at(iq, id));

        }

      }

    }


    // Prepare for next iteration

    loader_k.next();

    loader_v.next();

  }


  // Normalize output

  Otile.template row_bin_op<DivOp>(sum_score);

  threadgroup_barrier(mem_flags::mem_none);


  // Store results

  O += (tm + sm) * params->O_strides[2] + sn;


  if (!align_Q && int(tid.x) == (params->NQ_aligned)) {

    auto dst_tile_dims =

        short2(BD - sn, params->qL - BQ * params->NQ_aligned - (tm + sm));


    if (dst_tile_dims.x <= 0 || dst_tile_dims.y <= 0)

      return;


    Otile.template store_safe<T, 1, 1>(O, params->O_strides[2], dst_tile_dims);

  } else {

    Otile.template store<T, 1, 1>(O, params->O_strides[2]);

  }

}


metal::max
METAL_FUNC bfloat16_t max(bfloat16_t x, bfloat16_t y)
Definition bf16_math.h:232

mlx::steel
Definition attn.h:19

mlx::steel::tile_matmad
METAL_FUNC void tile_matmad(thread MMATile< Dtype, M, N, MMAFragD > &D, thread MMATile< Atype, M, K, MMAFragA > &A, thread MMATile< Btype, K, N, MMAFragB > &B, thread MMATile< Ctype, M, N, MMAFragC > &C)
Definition mma.h:432

STEEL_PRAGMA_UNROLL
#define STEEL_PRAGMA_UNROLL
Definition defines.h:4

align_Q
constant bool align_Q
Definition steel_attention.h:9

attention
void attention(const device T *Q, const device T *K, const device T *V, device T *O, const constant AttnParams *params, uint simd_lane_id, uint simd_group_id, uint3 tid, uint3 lid)
Definition steel_attention.h:73

align_K
constant bool align_K
Definition steel_attention.h:10

DivOp
Definition steel_attention.h:57

DivOp::apply
static METAL_FUNC constexpr T apply(T x, T y)
Definition steel_attention.h:59

ExpSubOp
Definition steel_attention.h:50

ExpSubOp::apply
static METAL_FUNC constexpr T apply(T x, T y)
Definition steel_attention.h:52

Limits::min
static const constant U min
Definition utils.h:25

MaxOp
Definition steel_attention.h:22

MaxOp::apply
static METAL_FUNC constexpr T apply(T x, T y)
Definition steel_attention.h:24

MulOp
Definition steel_attention.h:36

MulOp::apply
static METAL_FUNC constexpr T apply(T x, T y)
Definition steel_attention.h:38

SubOp
Definition steel_attention.h:43

SubOp::apply
static METAL_FUNC constexpr T apply(T x, T y)
Definition steel_attention.h:45

SumOp
Definition steel_attention.h:29

SumOp::apply
static METAL_FUNC constexpr T apply(T x, T y)
Definition steel_attention.h:31

TransformScale
Definition steel_attention.h:13

TransformScale::apply
METAL_FUNC T apply(T x) const
Definition steel_attention.h:17

TransformScale::scale
T scale
Definition steel_attention.h:14

TransformScale::TransformScale
METAL_FUNC TransformScale(T scale_)
Definition steel_attention.h:15

mlx::steel::AttnParams
Definition params.h:12

mlx::steel::BaseMMAFrag
Definition mma.h:37

mlx::steel::BlockLoaderT
Definition loader.h:153

mlx::steel::MMATile
Definition mma.h:231

mlx::steel::MMATile::frag_at
METAL_FUNC constexpr thread frag_type & frag_at(const short i, const short j)
Definition mma.h:264

mlx::steel::MMATile::clear
METAL_FUNC constexpr void clear()
Definition mma.h:257