build/html/steel__gemm__fused_8h_source.html

// Copyright © 2024 Apple Inc.


using namespace mlx::steel;


// GEMM kernels


constant bool has_batch [[function_constant(10)]];


constant bool use_out_source [[function_constant(100)]];

constant bool do_axpby [[function_constant(110)]];


constant bool align_M [[function_constant(200)]];

constant bool align_N [[function_constant(201)]];

constant bool align_K [[function_constant(202)]];


constant bool do_gather [[function_constant(300)]];


constant bool gather_bias = do_gather && use_out_source;


// clang-format off

template <

    typename T,

    int BM,

    int BN,

    int BK,

    int WM,

    int WN,

    bool transpose_a,

    bool transpose_b,

    typename AccumType = float>


[[kernel, max_total_threads_per_threadgroup(WM* WN * 32)]] void gemm(

    const device T* A [[buffer(0)]],

    const device T* B [[buffer(1)]],

    const device T* C [[buffer(2), function_constant(use_out_source)]],

    device T* D [[buffer(3)]],

    const constant GEMMParams* params [[buffer(4)]],

    const constant GEMMAddMMParams* addmm_params [[buffer(5), function_constant(use_out_source)]],

    const constant int* batch_shape [[buffer(6)]],

    const constant int64_t* batch_strides [[buffer(7)]],

    const constant uint32_t* lhs_indices [[buffer(10), function_constant(do_gather)]],

    const constant uint32_t* rhs_indices [[buffer(11), function_constant(do_gather)]],

    const constant uint32_t* C_indices [[buffer(12), function_constant(gather_bias)]],

    const constant int* operand_shape [[buffer(13), function_constant(do_gather)]],

    const constant int64_t* operand_strides [[buffer(14), function_constant(do_gather)]],

    const constant packed_int3& operand_batch_ndim [[buffer(15), function_constant(do_gather)]],

    uint simd_lane_id [[thread_index_in_simdgroup]],

    uint simd_group_id [[simdgroup_index_in_threadgroup]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint3 lid [[thread_position_in_threadgroup]]) { // clang-format on

  // Pacifying compiler

  (void)lid;


  using gemm_kernel = GEMMKernel<

      T,

      T,

      BM,

      BN,

      BK,

      WM,

      WN,

      transpose_a,

      transpose_b,

      true,

      true,

      AccumType>;


  using loader_a_t = typename gemm_kernel::loader_a_t;

  using loader_b_t = typename gemm_kernel::loader_b_t;

  using mma_t = typename gemm_kernel::mma_t;


  // Find block

  const int tid_y = ((tid.y) << params->swizzle_log) +

      ((tid.x) & ((1 << params->swizzle_log) - 1));

  const int tid_x = (tid.x) >> params->swizzle_log;


  // Exit early if out of bounds

  if (params->tiles_n <= tid_x || params->tiles_m <= tid_y) {

    return;

  }


  // Adjust for batch


  // Handle gather

  if (do_gather) {

    // Read indices

    uint32_t indx_A, indx_B, indx_C;


    if (has_batch) {

      const constant auto* indx_A_bstrides = batch_strides;

      const constant auto* indx_B_bstrides = batch_strides + params->batch_ndim;


      ulong2 indx_offsets = elem_to_loc_broadcast(

          tid.z,

          batch_shape,

          indx_A_bstrides,

          indx_B_bstrides,

          params->batch_ndim);

      indx_A = lhs_indices[indx_offsets.x];

      indx_B = rhs_indices[indx_offsets.y];


      if (use_out_source) {

        const constant auto* indx_C_bstrides =

            indx_B_bstrides + params->batch_ndim;

        auto indx_offset_C = elem_to_loc(

            tid.z, batch_shape, indx_C_bstrides, params->batch_ndim);

        indx_C = C_indices[indx_offset_C];

      }

    } else {

      indx_A = lhs_indices[params->batch_stride_a * tid.z];

      indx_B = rhs_indices[params->batch_stride_b * tid.z];


      if (use_out_source) {

        indx_C = C_indices[addmm_params->batch_stride_c * tid.z];

      }

    }


    // Translate indices to offsets

    int batch_ndim_A = operand_batch_ndim.x;

    const constant int* batch_shape_A = operand_shape;

    const constant auto* batch_strides_A = operand_strides;

    A += elem_to_loc(indx_A, batch_shape_A, batch_strides_A, batch_ndim_A);


    int batch_ndim_B = operand_batch_ndim.y;

    const constant int* batch_shape_B = batch_shape_A + batch_ndim_A;

    const constant auto* batch_strides_B = batch_strides_A + batch_ndim_A;

    B += elem_to_loc(indx_B, batch_shape_B, batch_strides_B, batch_ndim_B);


    if (use_out_source) {

      int batch_ndim_C = operand_batch_ndim.z;

      const constant int* batch_shape_C = batch_shape_B + batch_ndim_B;

      const constant auto* batch_strides_C = batch_strides_B + batch_ndim_B;

      C += elem_to_loc(indx_C, batch_shape_C, batch_strides_C, batch_ndim_C);

    }


  }


  // Handle regular batch

  else {

    if (has_batch) {

      const constant auto* A_bstrides = batch_strides;

      const constant auto* B_bstrides = batch_strides + params->batch_ndim;


      ulong2 batch_offsets = elem_to_loc_broadcast(

          tid.z, batch_shape, A_bstrides, B_bstrides, params->batch_ndim);


      A += batch_offsets.x;

      B += batch_offsets.y;


      if (use_out_source) {

        const constant auto* C_bstrides = B_bstrides + params->batch_ndim;

        C += elem_to_loc(tid.z, batch_shape, C_bstrides, params->batch_ndim);

      }

    } else {

      A += params->batch_stride_a * tid.z;

      B += params->batch_stride_b * tid.z;


      if (use_out_source) {

        C += addmm_params->batch_stride_c * tid.z;

      }

    }

  }


  D += params->batch_stride_d * tid.z;


  // Prepare threadgroup memory

  threadgroup T As[gemm_kernel::tgp_mem_size_a];

  threadgroup T Bs[gemm_kernel::tgp_mem_size_b];


  threadgroup_barrier(mem_flags::mem_none);


  // Find block in A, B, C

  const int c_row = tid_y * BM;

  const int c_col = tid_x * BN;

  const size_t c_row_long = size_t(c_row);

  const size_t c_col_long = size_t(c_col);


  A += transpose_a ? c_row_long : c_row_long * params->lda;

  B += transpose_b ? c_col_long * params->ldb : c_col_long;

  D += c_row_long * params->ldd + c_col_long;


  if (use_out_source) {

    C += c_row_long * addmm_params->ldc + c_col_long * addmm_params->fdc;

  }


  // Prepare threadgroup mma operation

  thread mma_t mma_op(simd_group_id, simd_lane_id);


  // Prepare threadgroup loading operations

  thread loader_a_t loader_a(A, params->lda, As, simd_group_id, simd_lane_id);

  thread loader_b_t loader_b(B, params->ldb, Bs, simd_group_id, simd_lane_id);


  // Prepare threadgroup bounds

  const short tgp_bm = align_M ? BM : short(min(BM, params->M - c_row));

  const short tgp_bn = align_N ? BN : short(min(BN, params->N - c_col));


  // Prepare iterations

  int gemm_k_iterations = params->gemm_k_iterations_aligned;


  // Do unaligned K iterations first

  if (!align_K) {

    const int k_last = params->gemm_k_iterations_aligned * BK;

    const int k_remain = params->K - k_last;

    const size_t k_jump_a =

        transpose_a ? params->lda * size_t(k_last) : size_t(k_last);

    const size_t k_jump_b =

        transpose_b ? size_t(k_last) : params->ldb * size_t(k_last);


    // Move loader source ahead to end

    loader_a.src += k_jump_a;

    loader_b.src += k_jump_b;


    // Load tile

    const short2 tile_dims_A =

        transpose_a ? short2(tgp_bm, k_remain) : short2(k_remain, tgp_bm);

    const short2 tile_dims_B =

        transpose_b ? short2(k_remain, tgp_bn) : short2(tgp_bn, k_remain);


    loader_a.load_safe(tile_dims_A);

    loader_b.load_safe(tile_dims_B);


    threadgroup_barrier(mem_flags::mem_threadgroup);


    // Do matmul

    mma_op.mma(As, Bs);


    // Reset source back to start

    loader_a.src -= k_jump_a;

    loader_b.src -= k_jump_b;

  }


  const TransformAdd<AccumType, AccumType> epilogue_op_add(

      addmm_params->alpha, addmm_params->beta);

  const TransformAxpby<AccumType, AccumType> epilogue_op_axpby(

      addmm_params->alpha, addmm_params->beta);


  // MNK aligned loop

  if (align_M && align_N) {

    // Do gemm

    for (int k = 0; k < gemm_k_iterations; k++) {

      threadgroup_barrier(mem_flags::mem_threadgroup);

      // Load elements into threadgroup

      loader_a.load_unsafe();

      loader_b.load_unsafe();


      threadgroup_barrier(mem_flags::mem_threadgroup);


      // Multiply and accumulate threadgroup elements

      mma_op.mma(As, Bs);


      // Prepare for next iteration

      loader_a.next();

      loader_b.next();

    }


    threadgroup_barrier(mem_flags::mem_none);


    // Do epilogue

    if (use_out_source) {

      if (do_axpby) {

        mma_op.apply_epilogue(

            C, addmm_params->ldc, addmm_params->fdc, epilogue_op_axpby);

      } else {

        mma_op.apply_epilogue(

            C, addmm_params->ldc, addmm_params->fdc, epilogue_op_add);

      }

    }


    // Store results to device memory

    return mma_op.store_result(D, params->ldd);


  }

  // MN unaligned loop

  else { // Loop over K - unaligned case

    const int leftover_bk = 0;


    if ((align_M || tgp_bm == BM) && (align_N || tgp_bn == BN)) {

      // Do gemm

      gemm_kernel::gemm_loop(

          As,

          Bs,

          gemm_k_iterations,

          loader_a,

          loader_b,

          mma_op,

          tgp_bm,

          tgp_bn,

          leftover_bk,

          LoopAlignment<true, true, true>{});


      // Do epilogue

      if (use_out_source) {

        if (do_axpby) {

          mma_op.apply_epilogue(

              C, addmm_params->ldc, addmm_params->fdc, epilogue_op_axpby);

        } else {

          mma_op.apply_epilogue(

              C, addmm_params->ldc, addmm_params->fdc, epilogue_op_add);

        }

      }


      // Store results to device memory

      return mma_op.store_result(D, params->ldd);


    } else if (align_N || tgp_bn == BN) {

      gemm_kernel::gemm_loop(

          As,

          Bs,

          gemm_k_iterations,

          loader_a,

          loader_b,

          mma_op,

          tgp_bm,

          tgp_bn,

          leftover_bk,

          LoopAlignment<false, true, true>{});


      // Do epilogue

      if (use_out_source) {

        if (do_axpby) {

          mma_op.apply_epilogue_safe(

              C,

              addmm_params->ldc,

              addmm_params->fdc,

              short2(tgp_bn, tgp_bm),

              epilogue_op_axpby);

        } else {

          mma_op.apply_epilogue_safe(

              C,

              addmm_params->ldc,

              addmm_params->fdc,

              short2(tgp_bn, tgp_bm),

              epilogue_op_add);

        }

      }


      // Store results to device memory

      return mma_op.store_result_safe(D, params->ldd, short2(tgp_bn, tgp_bm));


    } else if (align_M || tgp_bm == BM) {

      gemm_kernel::gemm_loop(

          As,

          Bs,

          gemm_k_iterations,

          loader_a,

          loader_b,

          mma_op,

          tgp_bm,

          tgp_bn,

          leftover_bk,

          LoopAlignment<true, false, true>{});


      // Do epilogue

      if (use_out_source) {

        if (do_axpby) {

          mma_op.apply_epilogue_safe(

              C,

              addmm_params->ldc,

              addmm_params->fdc,

              short2(tgp_bn, tgp_bm),

              epilogue_op_axpby);

        } else {

          mma_op.apply_epilogue_safe(

              C,

              addmm_params->ldc,

              addmm_params->fdc,

              short2(tgp_bn, tgp_bm),

              epilogue_op_add);

        }

      }


      // Store results to device memory

      return mma_op.store_result_safe(D, params->ldd, short2(tgp_bn, tgp_bm));


    } else {

      gemm_kernel::gemm_loop(

          As,

          Bs,

          gemm_k_iterations,

          loader_a,

          loader_b,

          mma_op,

          tgp_bm,

          tgp_bn,

          leftover_bk,

          LoopAlignment<false, false, true>{});


      // Do epilogue

      if (use_out_source) {

        if (do_axpby) {

          mma_op.apply_epilogue_safe(

              C,

              addmm_params->ldc,

              addmm_params->fdc,

              short2(tgp_bn, tgp_bm),

              epilogue_op_axpby);

        } else {

          mma_op.apply_epilogue_safe(

              C,

              addmm_params->ldc,

              addmm_params->fdc,

              short2(tgp_bn, tgp_bm),

              epilogue_op_add);

        }

      }


      // Store results to device memory

      return mma_op.store_result_safe(D, params->ldd, short2(tgp_bn, tgp_bm));

    }

  }

}


elem_to_loc_broadcast
METAL_FUNC ulong2 elem_to_loc_broadcast(uint elem, constant const int *shape, constant const int64_t *a_strides, constant const int64_t *b_strides, int ndim)
Definition utils.h:7

elem_to_loc
METAL_FUNC IdxT elem_to_loc(IdxT elem, constant const int *shape, constant const int64_t *strides, int ndim)
Definition utils.h:93

mlx::steel
Definition attn.h:19

align_K
constant bool align_K
Definition steel_attention.h:10

use_out_source
constant bool use_out_source
Definition steel_gemm_fused.h:11

align_M
constant bool align_M
Definition steel_gemm_fused.h:14

do_gather
constant bool do_gather
Definition steel_gemm_fused.h:18

do_axpby
constant bool do_axpby
Definition steel_gemm_fused.h:12

gemm
void gemm(const device T *A, const device T *B, const device T *C, device T *D, const constant GEMMParams *params, const constant GEMMAddMMParams *addmm_params, const constant int *batch_shape, const constant int64_t *batch_strides, const constant uint32_t *lhs_indices, const constant uint32_t *rhs_indices, const constant uint32_t *C_indices, const constant int *operand_shape, const constant int64_t *operand_strides, const constant packed_int3 &operand_batch_ndim, uint simd_lane_id, uint simd_group_id, uint3 tid, uint3 lid)
Definition steel_gemm_fused.h:33

align_N
constant bool align_N
Definition steel_gemm_fused.h:15

gather_bias
constant bool gather_bias
Definition steel_gemm_fused.h:20

has_batch
constant bool has_batch
Definition steel_gemm_fused.h:9

mlx::steel::GEMMAddMMParams
Definition params.h:53

mlx::steel::GEMMKernel
Definition attn.h:38

mlx::steel::GEMMParams
Definition params.h:12

mlx::steel::LoopAlignment
Definition attn.h:22

mlx::steel::TransformAdd
Definition transforms.h:26

mlx::steel::TransformAxpby
Definition transforms.h:39