build/html/quantized_8h_source.html

// Copyright © 2023-2024 Apple Inc.


#include <metal_simdgroup>

#include <metal_stdlib>


using namespace metal;


#define MLX_MTL_CONST static constant constexpr const


MLX_MTL_CONST int SIMD_SIZE = 32;


template <typename T, typename U, int values_per_thread, int bits>


inline U load_vector(const device T* x, thread U* x_thread) {

  static_assert(

      bits == 2 || bits == 4 || bits == 8,

      "Template undefined for bits not in {2, 4, 8}");


  U sum = 0;


  if (bits == 2) {

    for (int i = 0; i < values_per_thread; i += 4) {

      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];

      x_thread[i] = x[i];

      x_thread[i + 1] = x[i + 1] / 4.0f;

      x_thread[i + 2] = x[i + 2] / 16.0f;

      x_thread[i + 3] = x[i + 3] / 64.0f;

    }

  }


  else if (bits == 4) {

    for (int i = 0; i < values_per_thread; i += 4) {

      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];

      x_thread[i] = x[i];

      x_thread[i + 1] = x[i + 1] / 16.0f;

      x_thread[i + 2] = x[i + 2] / 256.0f;

      x_thread[i + 3] = x[i + 3] / 4096.0f;

    }

  }


  else if (bits == 8) {

    for (int i = 0; i < values_per_thread; i++) {

      sum += x[i];

      x_thread[i] = x[i];

    }

  }


  return sum;

}


template <typename T, typename U, int values_per_thread, int bits>


inline U load_vector_safe(const device T* x, thread U* x_thread, int N) {

  static_assert(

      bits == 2 || bits == 4 || bits == 8,

      "Template undefined for bits not in {2, 4, 8}");


  U sum = 0;


  if (bits == 2) {

    for (int i = 0; i < N; i += 4) {

      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];

      x_thread[i] = x[i];

      x_thread[i + 1] = x[i + 1] / 4.0f;

      x_thread[i + 2] = x[i + 2] / 16.0f;

      x_thread[i + 3] = x[i + 3] / 64.0f;

    }

    for (int i = N; i < values_per_thread; i++) {

      x_thread[i] = 0;

    }

  }


  else if (bits == 4) {

    for (int i = 0; i < N; i += 4) {

      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];

      x_thread[i] = x[i];

      x_thread[i + 1] = x[i + 1] / 16.0f;

      x_thread[i + 2] = x[i + 2] / 256.0f;

      x_thread[i + 3] = x[i + 3] / 4096.0f;

    }

    for (int i = N; i < values_per_thread; i++) {

      x_thread[i] = 0;

    }

  }


  else if (bits == 8) {

    for (int i = 0; i < N; i++) {

      sum += x[i];

      x_thread[i] = x[i];

    }

    for (int i = N; i < values_per_thread; i++) {

      x_thread[i] = 0;

    }

  }


  return sum;

}


template <typename U, int values_per_thread, int bits>


inline U qdot(

    const device uint8_t* w,

    const thread U* x_thread,

    U scale,

    U bias,

    U sum) {

  static_assert(

      bits == 2 || bits == 4 || bits == 8,

      "Template undefined for bits not in {2, 4, 8}");


  U accum = 0;


  if (bits == 2) {

    for (int i = 0; i < (values_per_thread / 4); i++) {

      accum +=

          (x_thread[4 * i] * (w[i] & 0x03) +

           x_thread[4 * i + 1] * (w[i] & 0x0c) +

           x_thread[4 * i + 2] * (w[i] & 0x30) +

           x_thread[4 * i + 3] * (w[i] & 0xc0));

    }

  }


  else if (bits == 4) {

    const device uint16_t* ws = (const device uint16_t*)w;

    for (int i = 0; i < (values_per_thread / 4); i++) {

      accum +=

          (x_thread[4 * i] * (ws[i] & 0x000f) +

           x_thread[4 * i + 1] * (ws[i] & 0x00f0) +

           x_thread[4 * i + 2] * (ws[i] & 0x0f00) +

           x_thread[4 * i + 3] * (ws[i] & 0xf000));

    }

  }


  else if (bits == 8) {

    for (int i = 0; i < values_per_thread; i++) {

      accum += x_thread[i] * w[i];

    }

  }


  return scale * accum + sum * bias;

}


template <typename U, int values_per_thread, int bits>


inline U qdot_safe(

    const device uint8_t* w,

    const thread U* x_thread,

    U scale,

    U bias,

    U sum,

    int N) {

  static_assert(

      bits == 2 || bits == 4 || bits == 8,

      "Template undefined for bits not in {2, 4, 8}");


  U accum = 0;


  if (bits == 2) {

    for (int i = 0; i < (N / 4); i++) {

      accum +=

          (x_thread[4 * i] * (w[i] & 0x03) +

           x_thread[4 * i + 1] * (w[i] & 0x0c) +

           x_thread[4 * i + 2] * (w[i] & 0x30) +

           x_thread[4 * i + 3] * (w[i] & 0xc0));

    }

  }


  else if (bits == 4) {

    const device uint16_t* ws = (const device uint16_t*)w;

    for (int i = 0; i < (N / 4); i++) {

      accum +=

          (x_thread[4 * i] * (ws[i] & 0x000f) +

           x_thread[4 * i + 1] * (ws[i] & 0x00f0) +

           x_thread[4 * i + 2] * (ws[i] & 0x0f00) +

           x_thread[4 * i + 3] * (ws[i] & 0xf000));

    }

  }


  else if (bits == 8) {

    for (int i = 0; i < N; i++) {

      accum += x_thread[i] * w[i];

    }

  }


  return scale * accum + sum * bias;

}


template <typename U, int values_per_thread, int bits>

inline void


qouter(const thread uint8_t* w, U x, U scale, U bias, thread U* result) {

  static_assert(

      bits == 2 || bits == 4 || bits == 8,

      "Template undefined for bits not in {2, 4, 8}");


  if (bits == 2) {

    U s[4] = {scale, scale / 4.0f, scale / 16.0f, scale / 64.0f};

    for (int i = 0; i < (values_per_thread / 4); i++) {

      result[4 * i] += x * (s[0] * (w[i] & 0x03) + bias);

      result[4 * i + 1] += x * (s[1] * (w[i] & 0x0c) + bias);

      result[4 * i + 2] += x * (s[2] * (w[i] & 0x30) + bias);

      result[4 * i + 3] += x * (s[3] * (w[i] & 0xc0) + bias);

    }

  }


  else if (bits == 4) {

    U s[2] = {scale, scale / 16.0f};

    for (int i = 0; i < (values_per_thread / 2); i++) {

      result[2 * i] += x * (s[0] * (w[i] & 0x0f) + bias);

      result[2 * i + 1] += x * (s[1] * (w[i] & 0xf0) + bias);

    }

  }


  else if (bits == 8) {

    for (int i = 0; i < values_per_thread; i++) {

      result[i] += x * (scale * w[i] + bias);

    }

  }

}


template <typename U, int N, int bits>

inline void


dequantize(const device uint8_t* w, U scale, U bias, threadgroup U* w_local) {

  static_assert(

      bits == 2 || bits == 4 || bits == 8,

      "Template undefined for bits not in {2, 4, 8}");


  if (bits == 2) {

    U s[4] = {

        scale,

        scale / static_cast<U>(4.0f),

        scale / static_cast<U>(16.0f),

        scale / static_cast<U>(64.0f)};

    for (int i = 0; i < (N / 4); i++) {

      w_local[4 * i] = s[0] * (w[i] & 0x03) + bias;

      w_local[4 * i + 1] = s[1] * (w[i] & 0x0c) + bias;

      w_local[4 * i + 2] = s[2] * (w[i] & 0x30) + bias;

      w_local[4 * i + 3] = s[3] * (w[i] & 0xc0) + bias;

    }

  }


  else if (bits == 4) {

    U s[2] = {scale, scale / static_cast<U>(16.0f)};

    for (int i = 0; i < (N / 2); i++) {

      w_local[2 * i] = s[0] * (w[i] & 0x0f) + bias;

      w_local[2 * i + 1] = s[1] * (w[i] & 0xf0) + bias;

    }

  }


  else if (bits == 8) {

    for (int i = 0; i < N; i++) {

      w_local[i] = scale * w[i] + bias;

    }

  }

}


template <

    typename T,

    short BROWS,

    short BCOLS,

    short dst_ld,

    short reduction_dim,

    short tgp_size,

    short group_size,

    short bits>


struct QuantizedBlockLoader {

  static_assert(

      BCOLS <= group_size,

      "The group size should be larger than the columns");

  static_assert(

      group_size % BCOLS == 0,

      "The group size should be divisible by the columns");

  static_assert(

      bits == 2 || bits == 4 || bits == 8,

      "Template undefined for bits not in {2, 4, 8}");


  MLX_MTL_CONST short pack_factor = 32 / bits;

  MLX_MTL_CONST short BCOLS_PACKED = BCOLS / pack_factor;

  MLX_MTL_CONST short n_reads =

      (BCOLS_PACKED * BROWS < tgp_size) ? 1 : (BCOLS_PACKED * BROWS) / tgp_size;

  MLX_MTL_CONST short group_steps = group_size / BCOLS;


  const int src_ld;

  const int tile_stride;

  short group_step_cnt;

  const int group_stride;


  const short thread_idx;

  const short bi;

  const short bj;


  threadgroup T* dst;

  const device uint32_t* src;

  const device T* scales;

  const device T* biases;


  QuantizedBlockLoader(

      const device uint32_t* src_,

      const device T* scales_,

      const device T* biases_,

      const int src_ld_,

      threadgroup T* dst_,

      ushort simd_group_id [[simdgroup_index_in_threadgroup]],

      ushort simd_lane_id [[thread_index_in_simdgroup]])

      : src_ld(src_ld_),

        tile_stride(

            reduction_dim ? BCOLS_PACKED : BROWS * src_ld / pack_factor),

        group_step_cnt(0),

        group_stride(BROWS * src_ld / group_size),

        thread_idx(simd_group_id * 32 + simd_lane_id),

        bi(n_reads * thread_idx / BCOLS_PACKED),

        bj((n_reads * thread_idx) % BCOLS_PACKED),

        dst(dst_ + bi * dst_ld + bj * pack_factor),

        src(src_ + bi * src_ld / pack_factor + bj),

        scales(scales_ + bi * src_ld / group_size),

        biases(biases_ + bi * src_ld / group_size) {}


  void load_unsafe() const {

    if (BCOLS_PACKED * BROWS < tgp_size && bi >= BROWS) {

      return;

    }


    T scale = *scales;

    T bias = *biases;

    for (int i = 0; i < n_reads; i++) {

      dequantize<T, pack_factor, bits>(

          (device uint8_t*)(src + i), scale, bias, dst + i * pack_factor);

    }

  }


  void load_safe(short2 src_tile_dim) const {

    if (BCOLS_PACKED * BROWS < tgp_size && bi >= BROWS) {

      return;

    }


    if (reduction_dim == 1 && bi >= src_tile_dim.y) {

      for (int i = 0; i < n_reads * pack_factor; i++) {

        dst[i] = T(0);

      }

      return;

    }


    if (reduction_dim == 0 && bi >= src_tile_dim.x) {

      for (int i = 0; i < n_reads * pack_factor; i++) {

        dst[i] = T(0);

      }

      return;

    }


    T scale = *scales;

    T bias = *biases;

    for (int i = 0; i < n_reads; i++) {

      dequantize<T, pack_factor, bits>(

          (device uint8_t*)(src + i), scale, bias, dst + i * pack_factor);

    }

  }


  void next() {

    src += tile_stride;

    if (reduction_dim == 1) {

      if (group_steps > 1) {

        group_step_cnt++;

        if (group_step_cnt == group_steps) {

          group_step_cnt = 0;

          scales++;

          biases++;

        }

      } else {

        scales++;

        biases++;

      }

    } else {

      scales += group_stride;

      biases += group_stride;

    }

  }


};


template <typename T, int group_size, int bits>


METAL_FUNC void qmv_fast_impl(

    const device uint32_t* w,

    const device T* scales,

    const device T* biases,

    const device T* x,

    device T* y,

    const constant int& in_vec_size,

    const constant int& out_vec_size,

    uint3 tid [[threadgroup_position_in_grid]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  constexpr int packs_per_thread = bits > 2 ? 2 : 1;

  constexpr int num_simdgroups = 2;

  constexpr int results_per_simdgroup = 4;

  constexpr int pack_factor = 32 / bits;

  constexpr int values_per_thread = pack_factor * packs_per_thread;

  constexpr int block_size = values_per_thread * SIMD_SIZE;

  constexpr int scale_step_per_thread = group_size / values_per_thread;


  typedef float U;


  thread U x_thread[values_per_thread];

  thread U result[results_per_simdgroup] = {0};


  // Adjust positions

  const int in_vec_size_w = in_vec_size / pack_factor;

  const int in_vec_size_g = in_vec_size / group_size;

  const int out_row = tid.x * (num_simdgroups * results_per_simdgroup) +

      simd_gid * results_per_simdgroup;

  w += out_row * in_vec_size_w + simd_lid * packs_per_thread;

  scales += out_row * in_vec_size_g + simd_lid / scale_step_per_thread;

  biases += out_row * in_vec_size_g + simd_lid / scale_step_per_thread;

  x += tid.y * in_vec_size + simd_lid * values_per_thread;

  y += tid.y * out_vec_size + out_row;


  for (int k = 0; k < in_vec_size; k += block_size) {

    U sum = load_vector<T, U, values_per_thread, bits>(x, x_thread);


    for (int row = 0; row < results_per_simdgroup; row++) {

      const device uint8_t* wl =

          (const device uint8_t*)(w + row * in_vec_size_w);

      const device T* sl = scales + row * in_vec_size_g;

      const device T* bl = biases + row * in_vec_size_g;


      U s = sl[0];

      U b = bl[0];

      result[row] += qdot<U, values_per_thread, bits>(wl, x_thread, s, b, sum);

    }


    w += block_size / pack_factor;

    scales += block_size / group_size;

    biases += block_size / group_size;

    x += block_size;

  }


  for (int row = 0; row < results_per_simdgroup; row++) {

    result[row] = simd_sum(result[row]);

    if (simd_lid == 0) {

      y[row] = static_cast<T>(result[row]);

    }

  }

}


template <typename T, int group_size, int bits>


METAL_FUNC void qmv_impl(

    const device uint32_t* w,

    const device T* scales,

    const device T* biases,

    const device T* x,

    device T* y,

    const constant int& in_vec_size,

    const constant int& out_vec_size,

    uint3 tid [[threadgroup_position_in_grid]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  constexpr int num_simdgroups = 2;

  constexpr int results_per_simdgroup = 4;

  constexpr int packs_per_thread = 1;

  constexpr int pack_factor = 32 / bits;

  constexpr int values_per_thread = pack_factor * packs_per_thread;

  constexpr int block_size = values_per_thread * SIMD_SIZE;

  constexpr int scale_step_per_thread = group_size / values_per_thread;


  typedef float U;


  thread U x_thread[values_per_thread];

  thread U result[results_per_simdgroup] = {0};


  // Adjust positions

  const int in_vec_size_w = in_vec_size / pack_factor;

  const int in_vec_size_g = in_vec_size / group_size;

  const int out_row = tid.x * (num_simdgroups * results_per_simdgroup) +

      simd_gid * results_per_simdgroup;

  const int used_out_row = min(out_vec_size - results_per_simdgroup, out_row);


  if (out_row >= out_vec_size) {

    return;

  }


  // In this case we need to properly guard all our reads because there isn't

  // even 1 tile in the matrix

  if (out_vec_size < (num_simdgroups * results_per_simdgroup)) {

    w += out_row * in_vec_size_w + simd_lid * packs_per_thread;

    scales += out_row * in_vec_size_g + simd_lid / scale_step_per_thread;

    biases += out_row * in_vec_size_g + simd_lid / scale_step_per_thread;

    x += tid.y * in_vec_size + simd_lid * values_per_thread;

    y += tid.y * out_vec_size + out_row;


    int k = 0;

    for (; k < in_vec_size - block_size; k += block_size) {

      U sum = load_vector<T, U, values_per_thread, bits>(x, x_thread);


      for (int row = 0; out_row + row < out_vec_size; row++) {

        const device uint8_t* wl =

            (const device uint8_t*)(w + row * in_vec_size_w);

        const device T* sl = scales + row * in_vec_size_g;

        const device T* bl = biases + row * in_vec_size_g;


        U s = sl[0];

        U b = bl[0];

        result[row] +=

            qdot<U, values_per_thread, bits>(wl, x_thread, s, b, sum);

      }


      w += block_size / pack_factor;

      scales += block_size / group_size;

      biases += block_size / group_size;

      x += block_size;

    }

    const int remaining = clamp(

        static_cast<int>(in_vec_size - k - simd_lid * values_per_thread),

        0,

        values_per_thread);

    U sum =

        load_vector_safe<T, U, values_per_thread, bits>(x, x_thread, remaining);


    for (int row = 0; out_row + row < out_vec_size; row++) {

      const device uint8_t* wl =

          (const device uint8_t*)(w + row * in_vec_size_w);

      const device T* sl = scales + row * in_vec_size_g;

      const device T* bl = biases + row * in_vec_size_g;


      U s = sl[0];

      U b = bl[0];

      result[row] += qdot<U, values_per_thread, bits>(wl, x_thread, s, b, sum);

    }


    for (int row = 0; out_row + row < out_vec_size; row++) {

      result[row] = simd_sum(result[row]);

      if (simd_lid == 0) {

        y[row] = static_cast<T>(result[row]);

      }

    }

  }


  // In this case the last tile is moved back to redo some output values

  else {

    w += used_out_row * in_vec_size_w + simd_lid * packs_per_thread;

    scales += used_out_row * in_vec_size_g + simd_lid / scale_step_per_thread;

    biases += used_out_row * in_vec_size_g + simd_lid / scale_step_per_thread;

    x += tid.y * in_vec_size + simd_lid * values_per_thread;

    y += tid.y * out_vec_size + used_out_row;


    int k = 0;

    for (; k < in_vec_size - block_size; k += block_size) {

      U sum = load_vector<T, U, values_per_thread, bits>(x, x_thread);


      for (int row = 0; row < results_per_simdgroup; row++) {

        const device uint8_t* wl =

            (const device uint8_t*)(w + row * in_vec_size_w);

        const device T* sl = scales + row * in_vec_size_g;

        const device T* bl = biases + row * in_vec_size_g;


        U s = sl[0];

        U b = bl[0];

        result[row] +=

            qdot<U, values_per_thread, bits>(wl, x_thread, s, b, sum);

      }


      w += block_size / pack_factor;

      scales += block_size / group_size;

      biases += block_size / group_size;

      x += block_size;

    }

    const int remaining = clamp(

        static_cast<int>(in_vec_size - k - simd_lid * values_per_thread),

        0,

        values_per_thread);

    U sum =

        load_vector_safe<T, U, values_per_thread, bits>(x, x_thread, remaining);


    for (int row = 0; row < results_per_simdgroup; row++) {

      const device uint8_t* wl =

          (const device uint8_t*)(w + row * in_vec_size_w);

      const device T* sl = scales + row * in_vec_size_g;

      const device T* bl = biases + row * in_vec_size_g;


      U s = sl[0];

      U b = bl[0];

      result[row] += qdot_safe<U, values_per_thread, bits>(

          wl, x_thread, s, b, sum, remaining);

    }


    for (int row = 0; row < results_per_simdgroup; row++) {

      result[row] = simd_sum(result[row]);

      if (simd_lid == 0) {

        y[row] = static_cast<T>(result[row]);

      }

    }

  }

}


template <typename T, const int group_size, const int bits>


METAL_FUNC void qvm_impl(

    const device T* x,

    const device uint32_t* w,

    const device T* scales,

    const device T* biases,

    device T* y,

    const constant int& in_vec_size,

    const constant int& out_vec_size,

    uint3 tid [[threadgroup_position_in_grid]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  constexpr int num_simdgroups = 2;

  constexpr int pack_factor = 32 / bits;

  constexpr int tn = 32 / pack_factor;

  constexpr int blocksize = SIMD_SIZE;


  typedef float U;

  typedef struct {

    uint32_t wi[tn];

  } vec_w;


  thread vec_w w_local;

  thread U result[tn * pack_factor] = {0};

  thread U scale = 1;

  thread U bias = 0;

  thread U x_local = 0;


  // Adjust positions

  const int out_vec_size_w = out_vec_size / pack_factor;

  const int out_vec_size_g = out_vec_size / group_size;

  int out_col =

      tid.x * (num_simdgroups * pack_factor * tn) + simd_gid * pack_factor * tn;

  w += out_col / pack_factor + simd_lid * out_vec_size_w;

  scales += out_col / group_size + simd_lid * out_vec_size_g;

  biases += out_col / group_size + simd_lid * out_vec_size_g;

  x += tid.y * in_vec_size + simd_lid;

  y += tid.y * out_vec_size + out_col;


  if (out_col >= out_vec_size) {

    return;

  }


  // Loop over in_vec in blocks of blocksize

  int remaining = in_vec_size % blocksize;

  if (remaining == 0) {

    for (int i = 0; i < in_vec_size; i += blocksize) {

      x_local = *x;

      scale = *scales;

      bias = *biases;

      w_local = *((device vec_w*)w);


      qouter<U, tn * pack_factor, bits>(

          (thread uint8_t*)&w_local, x_local, scale, bias, result);


      x += blocksize;

      scales += blocksize * out_vec_size_g;

      biases += blocksize * out_vec_size_g;

      w += blocksize * out_vec_size_w;

    }

  } else {

    for (int i = blocksize; i < in_vec_size; i += blocksize) {

      x_local = *x;

      scale = *scales;

      bias = *biases;

      w_local = *((device vec_w*)w);


      qouter<U, tn * pack_factor, bits>(

          (thread uint8_t*)&w_local, x_local, scale, bias, result);


      x += blocksize;

      scales += blocksize * out_vec_size_g;

      biases += blocksize * out_vec_size_g;

      w += blocksize * out_vec_size_w;

    }

    if (static_cast<int>(simd_lid) < remaining) {

      x_local = *x;

      scale = *scales;

      bias = *biases;

      w_local = *((device vec_w*)w);

    } else {

      x_local = 0;

      scale = 0;

      bias = 0;

    }

    qouter<U, tn * pack_factor, bits>(

        (thread uint8_t*)&w_local, x_local, scale, bias, result);

  }


// Accumulate in the simdgroup

#pragma clang loop unroll(full)

  for (int k = 0; k < tn * pack_factor; k++) {

    result[k] = simd_sum(result[k]);

  }


  // Store the result

  if (simd_lid == 0) {

#pragma clang loop unroll(full)

    for (int k = 0; k < tn * pack_factor; k++) {

      y[k] = static_cast<T>(result[k]);

    }

  }

}


template <

    typename T,

    const int group_size,

    const int bits,

    const bool aligned_N,

    const int BM = 32,

    const int BK = 32,

    const int BN = 32>


METAL_FUNC void qmm_t_impl(

    const device T* x,

    const device uint32_t* w,

    const device T* scales,

    const device T* biases,

    device T* y,

    threadgroup T* Xs,

    threadgroup T* Ws,

    const constant int& M,

    const constant int& N,

    const constant int& K,

    uint3 tid [[threadgroup_position_in_grid]],

    uint lid [[thread_index_in_threadgroup]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  static_assert(BK >= SIMD_SIZE, "BK should be larger than SIMD_SIZE");

  static_assert(BK % SIMD_SIZE == 0, "BK should be divisible by SIMD_SIZE");


  (void)lid;


  constexpr int WM = 2;

  constexpr int WN = 2;

  constexpr int pack_factor = 32 / bits;

  constexpr int BK_padded = (BK + 16 / sizeof(T));


  // Instantiate the appropriate BlockMMA and Loader

  using mma_t = mlx::steel::

      BlockMMA<T, T, BM, BN, BK, WM, WN, false, true, BK_padded, BK_padded>;

  using loader_x_t =

      mlx::steel::BlockLoader<T, BM, BK, BK_padded, 1, WM * WN * SIMD_SIZE>;

  using loader_w_t = QuantizedBlockLoader<

      T,

      BN,

      BK,

      BK_padded,

      1,

      WM * WN * SIMD_SIZE,

      group_size,

      bits>;


  // Set the block

  const int K_w = K / pack_factor;

  const int K_g = K / group_size;

  const int y_row = tid.y * BM;

  const int y_col = tid.x * BN;


  x += y_row * K;

  w += y_col * K_w;

  scales += y_col * K_g;

  biases += y_col * K_g;

  y += y_row * N + y_col;


  // Make the x loader and mma operation

  const short num_els = min(BM, M - y_row);

  const short num_outs = min(BN, N - y_col);

  loader_x_t loader_x(x, K, Xs, simd_gid, simd_lid);

  loader_w_t loader_w(w, scales, biases, K, Ws, simd_gid, simd_lid);

  mma_t mma_op(simd_gid, simd_lid);


  if (num_els < BM) {

    if (!aligned_N && num_outs < BN) {

      for (int k = 0; k < K; k += BK) {

        threadgroup_barrier(mem_flags::mem_threadgroup);

        loader_x.load_safe(short2(BK, num_els));

        loader_w.load_safe(short2(BK, num_outs));

        threadgroup_barrier(mem_flags::mem_threadgroup);

        mma_op.mma(Xs, Ws);

        loader_x.next();

        loader_w.next();

      }

    } else {

      for (int k = 0; k < K; k += BK) {

        threadgroup_barrier(mem_flags::mem_threadgroup);

        loader_x.load_safe(short2(BK, num_els));

        loader_w.load_unsafe();

        threadgroup_barrier(mem_flags::mem_threadgroup);

        mma_op.mma(Xs, Ws);

        loader_x.next();

        loader_w.next();

      }

    }

  } else {

    if (!aligned_N && num_outs < BN) {

      for (int k = 0; k < K; k += BK) {

        threadgroup_barrier(mem_flags::mem_threadgroup);

        loader_x.load_unsafe();

        loader_w.load_safe(short2(BK, num_outs));

        threadgroup_barrier(mem_flags::mem_threadgroup);

        mma_op.mma(Xs, Ws);

        loader_x.next();

        loader_w.next();

      }

    } else {

      for (int k = 0; k < K; k += BK) {

        threadgroup_barrier(mem_flags::mem_threadgroup);

        loader_x.load_unsafe();

        loader_w.load_unsafe();

        threadgroup_barrier(mem_flags::mem_threadgroup);

        mma_op.mma(Xs, Ws);

        loader_x.next();

        loader_w.next();

      }

    }

  }


  // Store results to device memory

  threadgroup_barrier(mem_flags::mem_threadgroup);

  if (num_els < BM || num_outs < BN) {

    mma_op.store_result_safe(y, N, short2(num_outs, num_els));

  } else {

    mma_op.store_result(y, N);

  }

}


template <

    typename T,

    const int group_size,

    const int bits,

    const int BM = 32,

    const int BK = 32,

    const int BN = 32>


METAL_FUNC void qmm_n_impl(

    const device T* x,

    const device uint32_t* w,

    const device T* scales,

    const device T* biases,

    device T* y,

    threadgroup T* Xs,

    threadgroup T* Ws,

    const constant int& M,

    const constant int& N,

    const constant int& K,

    uint3 tid [[threadgroup_position_in_grid]],

    uint lid [[thread_index_in_threadgroup]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  static_assert(BK >= SIMD_SIZE, "BK should be larger than SIMD_SIZE");

  static_assert(BK % SIMD_SIZE == 0, "BK should be divisible by SIMD_SIZE");


  (void)lid;


  constexpr int WM = 2;

  constexpr int WN = 2;

  constexpr int pack_factor = 32 / bits;

  constexpr int BK_padded = (BK + 16 / sizeof(T));

  constexpr int BN_padded = (BN + 16 / sizeof(T));


  // Instantiate the appropriate BlockMMA and Loader

  using mma_t = mlx::steel::

      BlockMMA<T, T, BM, BN, BK, WM, WN, false, false, BK_padded, BN_padded>;

  using loader_x_t = mlx::steel::

      BlockLoader<T, BM, BK, BK_padded, 1, WM * WN * SIMD_SIZE, 1, 4>;

  using loader_w_t = QuantizedBlockLoader<

      T,

      BK,

      BN,

      BN_padded,

      0,

      WM * WN * SIMD_SIZE,

      group_size,

      bits>;


  // Set the block

  const int y_row = tid.y * BM;

  const int y_col = tid.x * BN;

  x += y_row * K;

  w += y_col / pack_factor;

  scales += y_col / group_size;

  biases += y_col / group_size;

  y += y_row * N + y_col;


  // Make the x loader and mma operation

  const short num_els = min(BM, M - y_row);

  loader_x_t loader_x(x, K, Xs, simd_gid, simd_lid);

  loader_w_t loader_w(w, scales, biases, N, Ws, simd_gid, simd_lid);

  mma_t mma_op(simd_gid, simd_lid);


  if (num_els < BM) {

    if ((K % BK) != 0) {

      const int k_blocks = K / BK;

      for (int k = 0; k < k_blocks; k++) {

        threadgroup_barrier(mem_flags::mem_threadgroup);

        loader_x.load_safe(short2(BK, num_els));

        loader_w.load_unsafe();

        threadgroup_barrier(mem_flags::mem_threadgroup);

        mma_op.mma(Xs, Ws);

        loader_x.next();

        loader_w.next();

      }

      const short num_k = K - k_blocks * BK;

      threadgroup_barrier(mem_flags::mem_threadgroup);

      loader_x.load_safe(short2(num_k, num_els));

      loader_w.load_safe(short2(BN, num_k));

      threadgroup_barrier(mem_flags::mem_threadgroup);

      mma_op.mma(Xs, Ws);

    } else {

      for (int k = 0; k < K; k += BK) {

        threadgroup_barrier(mem_flags::mem_threadgroup);

        loader_x.load_safe(short2(BK, num_els));

        loader_w.load_unsafe();

        threadgroup_barrier(mem_flags::mem_threadgroup);

        mma_op.mma(Xs, Ws);

        loader_x.next();

        loader_w.next();

      }

    }

  } else {

    if ((K % BK) != 0) {

      const int k_blocks = K / BK;

      for (int k = 0; k < k_blocks; k++) {

        threadgroup_barrier(mem_flags::mem_threadgroup);

        loader_x.load_unsafe();

        loader_w.load_unsafe();

        threadgroup_barrier(mem_flags::mem_threadgroup);

        mma_op.mma(Xs, Ws);

        loader_x.next();

        loader_w.next();

      }

      const short num_k = K - k_blocks * BK;

      threadgroup_barrier(mem_flags::mem_threadgroup);

      loader_x.load_safe(short2(num_k, BM));

      loader_w.load_safe(short2(BN, num_k));

      threadgroup_barrier(mem_flags::mem_threadgroup);

      mma_op.mma(Xs, Ws);

    } else {

      for (int k = 0; k < K; k += BK) {

        threadgroup_barrier(mem_flags::mem_threadgroup);

        loader_x.load_unsafe();

        loader_w.load_unsafe();

        threadgroup_barrier(mem_flags::mem_threadgroup);

        mma_op.mma(Xs, Ws);

        loader_x.next();

        loader_w.next();

      }

    }

  }


  // Store results to device memory

  threadgroup_barrier(mem_flags::mem_threadgroup);

  if (num_els < BM) {

    mma_op.store_result_safe(y, N, short2(BN, num_els));

  } else {

    mma_op.store_result(y, N);

  }

}


template <typename T>


METAL_FUNC void adjust_matrix_offsets(

    const device T*& x,

    const device uint32_t*& w,

    const device T*& scales,

    const device T*& biases,

    const device uint32_t* lhs_indices,

    const device uint32_t* rhs_indices,

    device T*& y,

    int output_stride,

    const constant int& batch_ndims,

    const constant int* batch_shape,

    const constant size_t* lhs_strides,

    const constant size_t* rhs_strides,

    const constant int& x_batch_ndims,

    const constant int* x_shape,

    const constant size_t* x_strides,

    const constant int& w_batch_ndims,

    const constant int* w_shape,

    const constant size_t* w_strides,

    const constant size_t* s_strides,

    const constant size_t* b_strides,

    uint3 tid [[threadgroup_position_in_grid]]) {

  // Set the input/output matrices

  uint32_t x_idx;

  uint32_t w_idx;

  if (batch_ndims == 1) {

    x_idx = lhs_indices[tid.z * lhs_strides[0]];

    w_idx = rhs_indices[tid.z * rhs_strides[0]];

  } else {

    ulong2 idx = elem_to_loc_broadcast(

        tid.z, batch_shape, lhs_strides, rhs_strides, batch_ndims);

    x_idx = lhs_indices[idx.x];

    w_idx = rhs_indices[idx.y];

  }

  if (x_batch_ndims == 1) {

    x += x_idx * x_strides[0];

  } else {

    x += elem_to_loc(x_idx, x_shape, x_strides, x_batch_ndims);

  }

  if (w_batch_ndims == 1) {

    w += w_idx * w_strides[0];

    scales += w_idx * s_strides[0];

    biases += w_idx * b_strides[0];

  } else {

    ulong3 idx = elem_to_loc_broadcast(

        w_idx, w_shape, w_strides, s_strides, b_strides, w_batch_ndims);

    w += idx.x;

    scales += idx.y;

    biases += idx.z;

  }

  y += tid.z * output_stride;

}


template <typename T, int group_size, int bits>


[[kernel]] void qmv_fast(

    const device uint32_t* w [[buffer(0)]],

    const device T* scales [[buffer(1)]],

    const device T* biases [[buffer(2)]],

    const device T* x [[buffer(3)]],

    device T* y [[buffer(4)]],

    const constant int& in_vec_size [[buffer(5)]],

    const constant int& out_vec_size [[buffer(6)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  qmv_fast_impl<T, group_size, bits>(

      w,

      scales,

      biases,

      x,

      y,

      in_vec_size,

      out_vec_size,

      tid,

      simd_gid,

      simd_lid);

}


template <typename T, const int group_size, const int bits>


[[kernel]] void qmv(

    const device uint32_t* w [[buffer(0)]],

    const device T* scales [[buffer(1)]],

    const device T* biases [[buffer(2)]],

    const device T* x [[buffer(3)]],

    device T* y [[buffer(4)]],

    const constant int& in_vec_size [[buffer(5)]],

    const constant int& out_vec_size [[buffer(6)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  qmv_impl<T, group_size, bits>(

      w,

      scales,

      biases,

      x,

      y,

      in_vec_size,

      out_vec_size,

      tid,

      simd_gid,

      simd_lid);

}


template <typename T, const int group_size, const int bits>


[[kernel]] void qvm(

    const device T* x [[buffer(0)]],

    const device uint32_t* w [[buffer(1)]],

    const device T* scales [[buffer(2)]],

    const device T* biases [[buffer(3)]],

    device T* y [[buffer(4)]],

    const constant int& in_vec_size [[buffer(5)]],

    const constant int& out_vec_size [[buffer(6)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  qvm_impl<T, group_size, bits>(

      x,

      w,

      scales,

      biases,

      y,

      in_vec_size,

      out_vec_size,

      tid,

      simd_gid,

      simd_lid);

}


template <

    typename T,

    const int group_size,

    const int bits,

    const bool aligned_N,

    const int BM = 32,

    const int BK = 32,

    const int BN = 32>


[[kernel]] void qmm_t(

    const device T* x [[buffer(0)]],

    const device uint32_t* w [[buffer(1)]],

    const device T* scales [[buffer(2)]],

    const device T* biases [[buffer(3)]],

    device T* y [[buffer(4)]],

    const constant int& M [[buffer(5)]],

    const constant int& N [[buffer(6)]],

    const constant int& K [[buffer(7)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint lid [[thread_index_in_threadgroup]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  (void)lid;


  constexpr int BK_padded = (BK + 16 / sizeof(T));


  threadgroup T Xs[BM * BK_padded];

  threadgroup T Ws[BN * BK_padded];


  qmm_t_impl<T, group_size, bits, aligned_N, BM, BK, BN>(

      x, w, scales, biases, y, Xs, Ws, M, N, K, tid, lid, simd_gid, simd_lid);

}


template <

    typename T,

    const int group_size,

    const int bits,

    const int BM = 32,

    const int BK = 32,

    const int BN = 32>


[[kernel]] void qmm_n(

    const device T* x [[buffer(0)]],

    const device uint32_t* w [[buffer(1)]],

    const device T* scales [[buffer(2)]],

    const device T* biases [[buffer(3)]],

    device T* y [[buffer(4)]],

    const constant int& M [[buffer(5)]],

    const constant int& N [[buffer(6)]],

    const constant int& K [[buffer(7)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint lid [[thread_index_in_threadgroup]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  (void)lid;


  constexpr int BK_padded = (BK + 16 / sizeof(T));

  constexpr int BN_padded = (BN + 16 / sizeof(T));


  threadgroup T Xs[BM * BK_padded];

  threadgroup T Ws[BK * BN_padded];


  qmm_n_impl<T, group_size, bits, BM, BK, BN>(

      x, w, scales, biases, y, Xs, Ws, M, N, K, tid, lid, simd_gid, simd_lid);

}


template <typename T, int group_size, int bits>


[[kernel]] void bs_qmv_fast(

    const device uint32_t* w [[buffer(0)]],

    const device T* scales [[buffer(1)]],

    const device T* biases [[buffer(2)]],

    const device T* x [[buffer(3)]],

    const device uint32_t* lhs_indices [[buffer(4)]],

    const device uint32_t* rhs_indices [[buffer(5)]],

    device T* y [[buffer(6)]],

    const constant int& in_vec_size [[buffer(7)]],

    const constant int& out_vec_size [[buffer(8)]],

    const constant int& batch_ndims [[buffer(9)]],

    const constant int* batch_shape [[buffer(10)]],

    const constant size_t* lhs_strides [[buffer(11)]],

    const constant size_t* rhs_strides [[buffer(12)]],

    const constant int& x_batch_ndims [[buffer(13)]],

    const constant int* x_shape [[buffer(14)]],

    const constant size_t* x_strides [[buffer(15)]],

    const constant int& w_batch_ndims [[buffer(16)]],

    const constant int* w_shape [[buffer(17)]],

    const constant size_t* w_strides [[buffer(18)]],

    const constant size_t* s_strides [[buffer(19)]],

    const constant size_t* b_strides [[buffer(20)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  adjust_matrix_offsets<T>(

      x,

      w,

      scales,

      biases,

      lhs_indices,

      rhs_indices,

      y,

      out_vec_size,

      batch_ndims,

      batch_shape,

      lhs_strides,

      rhs_strides,

      x_batch_ndims,

      x_shape,

      x_strides,

      w_batch_ndims,

      w_shape,

      w_strides,

      s_strides,

      b_strides,

      tid);

  qmv_fast_impl<T, group_size, bits>(

      w,

      scales,

      biases,

      x,

      y,

      in_vec_size,

      out_vec_size,

      tid,

      simd_gid,

      simd_lid);

}


template <typename T, int group_size, int bits>


[[kernel]] void bs_qmv(

    const device uint32_t* w [[buffer(0)]],

    const device T* scales [[buffer(1)]],

    const device T* biases [[buffer(2)]],

    const device T* x [[buffer(3)]],

    const device uint32_t* lhs_indices [[buffer(4)]],

    const device uint32_t* rhs_indices [[buffer(5)]],

    device T* y [[buffer(6)]],

    const constant int& in_vec_size [[buffer(7)]],

    const constant int& out_vec_size [[buffer(8)]],

    const constant int& batch_ndims [[buffer(9)]],

    const constant int* batch_shape [[buffer(10)]],

    const constant size_t* lhs_strides [[buffer(11)]],

    const constant size_t* rhs_strides [[buffer(12)]],

    const constant int& x_batch_ndims [[buffer(13)]],

    const constant int* x_shape [[buffer(14)]],

    const constant size_t* x_strides [[buffer(15)]],

    const constant int& w_batch_ndims [[buffer(16)]],

    const constant int* w_shape [[buffer(17)]],

    const constant size_t* w_strides [[buffer(18)]],

    const constant size_t* s_strides [[buffer(19)]],

    const constant size_t* b_strides [[buffer(20)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  adjust_matrix_offsets<T>(

      x,

      w,

      scales,

      biases,

      lhs_indices,

      rhs_indices,

      y,

      out_vec_size,

      batch_ndims,

      batch_shape,

      lhs_strides,

      rhs_strides,

      x_batch_ndims,

      x_shape,

      x_strides,

      w_batch_ndims,

      w_shape,

      w_strides,

      s_strides,

      b_strides,

      tid);

  qmv_impl<T, group_size, bits>(

      w,

      scales,

      biases,

      x,

      y,

      in_vec_size,

      out_vec_size,

      tid,

      simd_gid,

      simd_lid);

}


template <typename T, int group_size, int bits>


[[kernel]] void bs_qvm(

    const device T* x [[buffer(0)]],

    const device uint32_t* w [[buffer(1)]],

    const device T* scales [[buffer(2)]],

    const device T* biases [[buffer(3)]],

    const device uint32_t* lhs_indices [[buffer(4)]],

    const device uint32_t* rhs_indices [[buffer(5)]],

    device T* y [[buffer(6)]],

    const constant int& in_vec_size [[buffer(7)]],

    const constant int& out_vec_size [[buffer(8)]],

    const constant int& batch_ndims [[buffer(9)]],

    const constant int* batch_shape [[buffer(10)]],

    const constant size_t* lhs_strides [[buffer(11)]],

    const constant size_t* rhs_strides [[buffer(12)]],

    const constant int& x_batch_ndims [[buffer(13)]],

    const constant int* x_shape [[buffer(14)]],

    const constant size_t* x_strides [[buffer(15)]],

    const constant int& w_batch_ndims [[buffer(16)]],

    const constant int* w_shape [[buffer(17)]],

    const constant size_t* w_strides [[buffer(18)]],

    const constant size_t* s_strides [[buffer(19)]],

    const constant size_t* b_strides [[buffer(20)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  adjust_matrix_offsets<T>(

      x,

      w,

      scales,

      biases,

      lhs_indices,

      rhs_indices,

      y,

      out_vec_size,

      batch_ndims,

      batch_shape,

      lhs_strides,

      rhs_strides,

      x_batch_ndims,

      x_shape,

      x_strides,

      w_batch_ndims,

      w_shape,

      w_strides,

      s_strides,

      b_strides,

      tid);

  qvm_impl<T, group_size, bits>(

      x,

      w,

      scales,

      biases,

      y,

      in_vec_size,

      out_vec_size,

      tid,

      simd_gid,

      simd_lid);

}


template <

    typename T,

    const int group_size,

    const int bits,

    const bool aligned_N,

    const int BM = 32,

    const int BK = 32,

    const int BN = 32>


[[kernel]] void bs_qmm_t(

    const device T* x [[buffer(0)]],

    const device uint32_t* w [[buffer(1)]],

    const device T* scales [[buffer(2)]],

    const device T* biases [[buffer(3)]],

    const device uint32_t* lhs_indices [[buffer(4)]],

    const device uint32_t* rhs_indices [[buffer(5)]],

    device T* y [[buffer(6)]],

    const constant int& M [[buffer(7)]],

    const constant int& N [[buffer(8)]],

    const constant int& K [[buffer(9)]],

    const constant int& batch_ndims [[buffer(10)]],

    const constant int* batch_shape [[buffer(11)]],

    const constant size_t* lhs_strides [[buffer(12)]],

    const constant size_t* rhs_strides [[buffer(13)]],

    const constant int& x_batch_ndims [[buffer(14)]],

    const constant int* x_shape [[buffer(15)]],

    const constant size_t* x_strides [[buffer(16)]],

    const constant int& w_batch_ndims [[buffer(17)]],

    const constant int* w_shape [[buffer(18)]],

    const constant size_t* w_strides [[buffer(19)]],

    const constant size_t* s_strides [[buffer(20)]],

    const constant size_t* b_strides [[buffer(21)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint lid [[thread_index_in_threadgroup]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  (void)lid;


  constexpr int BK_padded = (BK + 16 / sizeof(T));


  threadgroup T Xs[BM * BK_padded];

  threadgroup T Ws[BN * BK_padded];


  adjust_matrix_offsets<T>(

      x,

      w,

      scales,

      biases,

      lhs_indices,

      rhs_indices,

      y,

      M * N,

      batch_ndims,

      batch_shape,

      lhs_strides,

      rhs_strides,

      x_batch_ndims,

      x_shape,

      x_strides,

      w_batch_ndims,

      w_shape,

      w_strides,

      s_strides,

      b_strides,

      tid);

  qmm_t_impl<T, group_size, bits, aligned_N, BM, BK, BN>(

      x, w, scales, biases, y, Xs, Ws, M, N, K, tid, lid, simd_gid, simd_lid);

}


template <

    typename T,

    const int group_size,

    const int bits,

    const int BM = 32,

    const int BK = 32,

    const int BN = 32>


[[kernel]] void bs_qmm_n(

    const device T* x [[buffer(0)]],

    const device uint32_t* w [[buffer(1)]],

    const device T* scales [[buffer(2)]],

    const device T* biases [[buffer(3)]],

    const device uint32_t* lhs_indices [[buffer(4)]],

    const device uint32_t* rhs_indices [[buffer(5)]],

    device T* y [[buffer(6)]],

    const constant int& M [[buffer(7)]],

    const constant int& N [[buffer(8)]],

    const constant int& K [[buffer(9)]],

    const constant int& batch_ndims [[buffer(10)]],

    const constant int* batch_shape [[buffer(11)]],

    const constant size_t* lhs_strides [[buffer(12)]],

    const constant size_t* rhs_strides [[buffer(13)]],

    const constant int& x_batch_ndims [[buffer(14)]],

    const constant int* x_shape [[buffer(15)]],

    const constant size_t* x_strides [[buffer(16)]],

    const constant int& w_batch_ndims [[buffer(17)]],

    const constant int* w_shape [[buffer(18)]],

    const constant size_t* w_strides [[buffer(19)]],

    const constant size_t* s_strides [[buffer(20)]],

    const constant size_t* b_strides [[buffer(21)]],

    uint3 tid [[threadgroup_position_in_grid]],

    uint lid [[thread_index_in_threadgroup]],

    uint simd_gid [[simdgroup_index_in_threadgroup]],

    uint simd_lid [[thread_index_in_simdgroup]]) {

  (void)lid;


  constexpr int BK_padded = (BK + 16 / sizeof(T));

  constexpr int BN_padded = (BN + 16 / sizeof(T));


  threadgroup T Xs[BM * BK_padded];

  threadgroup T Ws[BK * BN_padded];


  adjust_matrix_offsets<T>(

      x,

      w,

      scales,

      biases,

      lhs_indices,

      rhs_indices,

      y,

      M * N,

      batch_ndims,

      batch_shape,

      lhs_strides,

      rhs_strides,

      x_batch_ndims,

      x_shape,

      x_strides,

      w_batch_ndims,

      w_shape,

      w_strides,

      s_strides,

      b_strides,

      tid);

  qmm_n_impl<T, group_size, bits, BM, BK, BN>(

      x, w, scales, biases, y, Xs, Ws, M, N, K, tid, lid, simd_gid, simd_lid);

}


template <typename T, const int group_size, const int bits>


[[kernel]] void affine_quantize(

    const device T* w [[buffer(0)]],

    device uint8_t* out [[buffer(1)]],

    device T* scales [[buffer(2)]],

    device T* biases [[buffer(3)]],

    uint2 index [[thread_position_in_grid]],

    uint2 grid_dim [[threads_per_grid]]) {

  constexpr T eps = T(1e-7);

  constexpr int simd_size = 32;

  constexpr int uint8_bits = 8;

  constexpr T n_bins = (1 << bits) - 1;

  constexpr int packs_per_int = uint8_bits / bits;

  constexpr int values_per_reduce = group_size / simd_size;

  constexpr int writes_per_reduce = packs_per_int / values_per_reduce;

  constexpr int writes_per_pack =

      writes_per_reduce > 1 ? 1 : values_per_reduce / packs_per_int;


  static_assert(

      group_size % simd_size == 0,

      "Group size must be divisible by simd size.");


  size_t offset = index.x + grid_dim.x * size_t(index.y);

  size_t in_index = offset * values_per_reduce;

  size_t out_index = offset * writes_per_pack;


  T w_thread[values_per_reduce];

  T w_min = Limits<T>::max;

  T w_max = 0;


#pragma clang loop unroll(full)

  for (int i = 0; i < values_per_reduce; i++) {

    T val = w[in_index + i];

    w_thread[i] = val;

    w_min = min(w_min, val);

    w_max = max(w_max, val);

  }


  w_min = simd_min(w_min);

  w_max = simd_max(w_max);


  T scale = max((w_max - w_min) / n_bins, eps);

  bool side = abs(w_min) > abs(w_max);

  scale = side ? scale : -scale;

  T edge = side ? w_min : w_max;

  T q0 = round(edge / scale);

  bool at_zero = q0 == 0.0f;

  scale = at_zero ? scale : edge / q0;

  T bias = at_zero ? T(0) : edge;


  // Write out the scales and biases

  size_t gindex = in_index / group_size;

  if (in_index % group_size == 0) {

    scales[gindex] = scale;

    biases[gindex] = bias;

  }


  uint8_t output = 0;

#pragma clang loop unroll(full)

  for (int i = 0; i < values_per_reduce; i++) {

    uint8_t val = min(round((w_thread[i] - bias) / scale), n_bins);

    if (bits == 8) {

      output = val;

    } else {

      output += val << (bits * (i % packs_per_int));

    }


    if (packs_per_int < values_per_reduce &&

        i % packs_per_int == packs_per_int - 1) {

      out[out_index + i / packs_per_int] = output;

      output = 0;

    } else {

#pragma clang loop unroll(full)

      for (int j = 0; j < writes_per_reduce - 1; j++) {

        uint8_t sval = simd_shuffle_down(val, j + 1);

        output += sval << (bits * (values_per_reduce + j + i));

      }

    }

  }

  if (writes_per_reduce > 0 && out_index % writes_per_reduce == 0) {

    out[out_index / writes_per_reduce] = output;

  }

}


template <typename T, const int group_size, const int bits>


[[kernel]] void affine_quantize_scales_biases(

    const device T* w [[buffer(0)]],

    const device T* scales [[buffer(1)]],

    const device T* biases [[buffer(2)]],

    device uint8_t* out [[buffer(3)]],

    uint2 index [[thread_position_in_grid]],

    uint2 grid_dim [[threads_per_grid]]) {

  constexpr int uint8_bits = 8;

  constexpr int packs_per_int = uint8_bits / bits;

  constexpr T n_bins = (1 << bits) - 1;


  size_t offset = index.x + grid_dim.x * size_t(index.y);

  size_t in_index = offset * packs_per_int;

  size_t gindex = in_index / group_size;


  T scale = scales[gindex];

  T bias = biases[gindex];


  uint8_t output = 0;

#pragma clang loop unroll(full)

  for (int i = 0; i < packs_per_int; i++) {

    uint8_t val = min(round((w[in_index + i] - bias) / scale), n_bins);

    if (bits == 8) {

      output = val;

    } else {

      output += val << (bits * i);

    }

  }

  out[offset] = output;

}


template <typename T, const int group_size, const int bits>


[[kernel]] void affine_dequantize(

    const device uint8_t* w [[buffer(0)]],

    const device T* scales [[buffer(1)]],

    const device T* biases [[buffer(2)]],

    device T* out [[buffer(3)]],

    uint2 index [[thread_position_in_grid]],

    uint2 grid_dim [[threads_per_grid]]) {

  constexpr int uint8_bits = 8;

  constexpr int packs_per_int = uint8_bits / bits;


  size_t offset = index.x + grid_dim.x * size_t(index.y);

  size_t oindex = offset * packs_per_int;

  size_t gindex = oindex / group_size;

  T scale = scales[gindex];

  T bias = biases[gindex];

  uint val = w[offset];


#pragma clang loop unroll(full)

  for (int i = 0; i < packs_per_int; i++) {

    uint8_t d;

    if (bits == 2) {

      d = (val >> (bits * i)) & 0x03;

    } else if (bits == 4) {

      d = (val >> (bits * i)) & 0x0f;

    } else if (bits == 8) {

      d = val;

    }

    out[oindex + i] = scale * d + bias;

  }

}


simd_size
static constant constexpr const uint8_t simd_size
Definition ops.h:22

elem_to_loc_broadcast
METAL_FUNC ulong2 elem_to_loc_broadcast(uint elem, constant const int *shape, constant const size_t *a_strides, constant const size_t *b_strides, int ndim)
Definition utils.h:7

elem_to_loc
METAL_FUNC stride_t elem_to_loc(uint elem, constant const int *shape, constant const stride_t *strides, int ndim)
Definition utils.h:87

metal
Definition bf16.h:265

metal::simd_max
METAL_FUNC bfloat16_t simd_max(bfloat16_t data)
Definition bf16_math.h:392

metal::round
METAL_FUNC bfloat16_t round(bfloat16_t x)
Definition bf16_math.h:234

metal::min
METAL_FUNC bfloat16_t min(bfloat16_t x, bfloat16_t y)
Definition bf16_math.h:234

metal::simd_sum
METAL_FUNC bfloat16_t simd_sum(bfloat16_t data)
Definition bf16_math.h:392

metal::max
METAL_FUNC bfloat16_t max(bfloat16_t x, bfloat16_t y)
Definition bf16_math.h:234

metal::abs
METAL_FUNC bfloat16_t abs(bfloat16_t x)
Definition bf16_math.h:234

metal::simd_min
METAL_FUNC bfloat16_t simd_min(bfloat16_t data)
Definition bf16_math.h:392

metal::simd_shuffle_down
METAL_FUNC bfloat16_t simd_shuffle_down(bfloat16_t data, ushort delta)
Definition bf16_math.h:391

mlx::core::random::bits
array bits(const std::vector< int > &shape, int width, const std::optional< array > &key=std::nullopt, StreamOrDevice s={})
Generate an array with type uint32 filled with random bits.

MLX_MTL_CONST
#define MLX_MTL_CONST
Definition quantized.h:8

bs_qmv
void bs_qmv(const device uint32_t *w, const device T *scales, const device T *biases, const device T *x, const device uint32_t *lhs_indices, const device uint32_t *rhs_indices, device T *y, const constant int &in_vec_size, const constant int &out_vec_size, const constant int &batch_ndims, const constant int *batch_shape, const constant size_t *lhs_strides, const constant size_t *rhs_strides, const constant int &x_batch_ndims, const constant int *x_shape, const constant size_t *x_strides, const constant int &w_batch_ndims, const constant int *w_shape, const constant size_t *w_strides, const constant size_t *s_strides, const constant size_t *b_strides, uint3 tid, uint simd_gid, uint simd_lid)
Definition quantized.h:1200

qdot_safe
U qdot_safe(const device uint8_t *w, const thread U *x_thread, U scale, U bias, U sum, int N)
Definition quantized.h:141

qvm
void qvm(const device T *x, const device uint32_t *w, const device T *scales, const device T *biases, device T *y, const constant int &in_vec_size, const constant int &out_vec_size, uint3 tid, uint simd_gid, uint simd_lid)
Definition quantized.h:1050

adjust_matrix_offsets
METAL_FUNC void adjust_matrix_offsets(const device T *&x, const device uint32_t *&w, const device T *&scales, const device T *&biases, const device uint32_t *lhs_indices, const device uint32_t *rhs_indices, device T *&y, int output_stride, const constant int &batch_ndims, const constant int *batch_shape, const constant size_t *lhs_strides, const constant size_t *rhs_strides, const constant int &x_batch_ndims, const constant int *x_shape, const constant size_t *x_strides, const constant int &w_batch_ndims, const constant int *w_shape, const constant size_t *w_strides, const constant size_t *s_strides, const constant size_t *b_strides, uint3 tid)
Definition quantized.h:946

bs_qmm_t
void bs_qmm_t(const device T *x, const device uint32_t *w, const device T *scales, const device T *biases, const device uint32_t *lhs_indices, const device uint32_t *rhs_indices, device T *y, const constant int &M, const constant int &N, const constant int &K, const constant int &batch_ndims, const constant int *batch_shape, const constant size_t *lhs_strides, const constant size_t *rhs_strides, const constant int &x_batch_ndims, const constant int *x_shape, const constant size_t *x_strides, const constant int &w_batch_ndims, const constant int *w_shape, const constant size_t *w_strides, const constant size_t *s_strides, const constant size_t *b_strides, uint3 tid, uint lid, uint simd_gid, uint simd_lid)
Definition quantized.h:1329

bs_qvm
void bs_qvm(const device T *x, const device uint32_t *w, const device T *scales, const device T *biases, const device uint32_t *lhs_indices, const device uint32_t *rhs_indices, device T *y, const constant int &in_vec_size, const constant int &out_vec_size, const constant int &batch_ndims, const constant int *batch_shape, const constant size_t *lhs_strides, const constant size_t *rhs_strides, const constant int &x_batch_ndims, const constant int *x_shape, const constant size_t *x_strides, const constant int &w_batch_ndims, const constant int *w_shape, const constant size_t *w_strides, const constant size_t *s_strides, const constant size_t *b_strides, uint3 tid, uint simd_gid, uint simd_lid)
Definition quantized.h:1261

affine_quantize
void affine_quantize(const device T *w, device uint8_t *out, device T *scales, device T *biases, uint2 index, uint2 grid_dim)
Definition quantized.h:1458

qmm_n_impl
METAL_FUNC void qmm_n_impl(const device T *x, const device uint32_t *w, const device T *scales, const device T *biases, device T *y, threadgroup T *Xs, threadgroup T *Ws, const constant int &M, const constant int &N, const constant int &K, uint3 tid, uint lid, uint simd_gid, uint simd_lid)
Definition quantized.h:820

affine_dequantize
void affine_dequantize(const device uint8_t *w, const device T *scales, const device T *biases, device T *out, uint2 index, uint2 grid_dim)
Definition quantized.h:1574

SIMD_SIZE
static constant constexpr const int SIMD_SIZE
Definition quantized.h:10

bs_qmv_fast
void bs_qmv_fast(const device uint32_t *w, const device T *scales, const device T *biases, const device T *x, const device uint32_t *lhs_indices, const device uint32_t *rhs_indices, device T *y, const constant int &in_vec_size, const constant int &out_vec_size, const constant int &batch_ndims, const constant int *batch_shape, const constant size_t *lhs_strides, const constant size_t *rhs_strides, const constant int &x_batch_ndims, const constant int *x_shape, const constant size_t *x_strides, const constant int &w_batch_ndims, const constant int *w_shape, const constant size_t *w_strides, const constant size_t *s_strides, const constant size_t *b_strides, uint3 tid, uint simd_gid, uint simd_lid)
Definition quantized.h:1139

affine_quantize_scales_biases
void affine_quantize_scales_biases(const device T *w, const device T *scales, const device T *biases, device uint8_t *out, uint2 index, uint2 grid_dim)
Definition quantized.h:1542

load_vector
U load_vector(const device T *x, thread U *x_thread)
Definition quantized.h:13

qmv_impl
METAL_FUNC void qmv_impl(const device uint32_t *w, const device T *scales, const device T *biases, const device T *x, device T *y, const constant int &in_vec_size, const constant int &out_vec_size, uint3 tid, uint simd_gid, uint simd_lid)
Definition quantized.h:439

qvm_impl
METAL_FUNC void qvm_impl(const device T *x, const device uint32_t *w, const device T *scales, const device T *biases, device T *y, const constant int &in_vec_size, const constant int &out_vec_size, uint3 tid, uint simd_gid, uint simd_lid)
Definition quantized.h:588

load_vector_safe
U load_vector_safe(const device T *x, thread U *x_thread, int N)
Definition quantized.h:51

qdot
U qdot(const device uint8_t *w, const thread U *x_thread, U scale, U bias, U sum)
Definition quantized.h:98

qmm_n
void qmm_n(const device T *x, const device uint32_t *w, const device T *scales, const device T *biases, device T *y, const constant int &M, const constant int &N, const constant int &K, uint3 tid, uint lid, uint simd_gid, uint simd_lid)
Definition quantized.h:1113

qmv_fast_impl
METAL_FUNC void qmv_fast_impl(const device uint32_t *w, const device T *scales, const device T *biases, const device T *x, device T *y, const constant int &in_vec_size, const constant int &out_vec_size, uint3 tid, uint simd_gid, uint simd_lid)
Definition quantized.h:375

qmm_t_impl
METAL_FUNC void qmm_t_impl(const device T *x, const device uint32_t *w, const device T *scales, const device T *biases, device T *y, threadgroup T *Xs, threadgroup T *Ws, const constant int &M, const constant int &N, const constant int &K, uint3 tid, uint lid, uint simd_gid, uint simd_lid)
Definition quantized.h:699

bs_qmm_n
void bs_qmm_n(const device T *x, const device uint32_t *w, const device T *scales, const device T *biases, const device uint32_t *lhs_indices, const device uint32_t *rhs_indices, device T *y, const constant int &M, const constant int &N, const constant int &K, const constant int &batch_ndims, const constant int *batch_shape, const constant size_t *lhs_strides, const constant size_t *rhs_strides, const constant int &x_batch_ndims, const constant int *x_shape, const constant size_t *x_strides, const constant int &w_batch_ndims, const constant int *w_shape, const constant size_t *w_strides, const constant size_t *s_strides, const constant size_t *b_strides, uint3 tid, uint lid, uint simd_gid, uint simd_lid)
Definition quantized.h:1396

qmv_fast
void qmv_fast(const device uint32_t *w, const device T *scales, const device T *biases, const device T *x, device T *y, const constant int &in_vec_size, const constant int &out_vec_size, uint3 tid, uint simd_gid, uint simd_lid)
Definition quantized.h:1000

qmv
void qmv(const device uint32_t *w, const device T *scales, const device T *biases, const device T *x, device T *y, const constant int &in_vec_size, const constant int &out_vec_size, uint3 tid, uint simd_gid, uint simd_lid)
Definition quantized.h:1025

qouter
void qouter(const thread uint8_t *w, U x, U scale, U bias, thread U *result)
Definition quantized.h:186

dequantize
void dequantize(const device uint8_t *w, U scale, U bias, threadgroup U *w_local)
Definition quantized.h:218

qmm_t
void qmm_t(const device T *x, const device uint32_t *w, const device T *scales, const device T *biases, device T *y, const constant int &M, const constant int &N, const constant int &K, uint3 tid, uint lid, uint simd_gid, uint simd_lid)
Definition quantized.h:1082

Limits
Definition utils.h:17

QuantizedBlockLoader
Definition quantized.h:261

QuantizedBlockLoader::group_stride
const int group_stride
Definition quantized.h:281

QuantizedBlockLoader::BCOLS_PACKED
static constant constexpr const short BCOLS_PACKED
Definition quantized.h:273

QuantizedBlockLoader::biases
const device T * biases
Definition quantized.h:290

QuantizedBlockLoader::group_step_cnt
short group_step_cnt
Definition quantized.h:280

QuantizedBlockLoader::group_steps
static constant constexpr const short group_steps
Definition quantized.h:276

QuantizedBlockLoader::thread_idx
const short thread_idx
Definition quantized.h:283

QuantizedBlockLoader::scales
const device T * scales
Definition quantized.h:289

QuantizedBlockLoader::n_reads
static constant constexpr const short n_reads
Definition quantized.h:274

QuantizedBlockLoader::next
void next()
Definition quantized.h:353

QuantizedBlockLoader::load_safe
void load_safe(short2 src_tile_dim) const
Definition quantized.h:326

QuantizedBlockLoader::src_ld
const int src_ld
Definition quantized.h:278

QuantizedBlockLoader::bi
const short bi
Definition quantized.h:284

QuantizedBlockLoader::load_unsafe
void load_unsafe() const
Definition quantized.h:313

QuantizedBlockLoader::pack_factor
static constant constexpr const short pack_factor
Definition quantized.h:272

QuantizedBlockLoader::dst
threadgroup T * dst
Definition quantized.h:287

QuantizedBlockLoader::tile_stride
const int tile_stride
Definition quantized.h:279

QuantizedBlockLoader::src
const device uint32_t * src
Definition quantized.h:288

QuantizedBlockLoader::bj
const short bj
Definition quantized.h:285

QuantizedBlockLoader::QuantizedBlockLoader
QuantizedBlockLoader(const device uint32_t *src_, const device T *scales_, const device T *biases_, const int src_ld_, threadgroup T *dst_, ushort simd_group_id, ushort simd_lane_id)
Definition quantized.h:292

mlx::steel::BlockLoader
Definition loader.h:25