build/html/backend_2metal_2kernels_2utils_8h_source.html

// Copyright © 2023-2024 Apple Inc.


#pragma once


#include <metal_math>

#include "mlx/backend/metal/kernels/bf16.h"

#include "mlx/backend/metal/kernels/complex.h"

#include "mlx/backend/metal/kernels/defines.h"


typedef half float16_t;


// Type limits utils


template <typename U>


struct Limits {

  static const constant U max = metal::numeric_limits<U>::max();

  static const constant U min = metal::numeric_limits<U>::min();

  static const constant U finite_max = metal::numeric_limits<U>::max();

  static const constant U finite_min = metal::numeric_limits<U>::min();

};


#define instantiate_default_limit(type)                                      \

  template <>                                                                \

  struct Limits<type> {                                                      \

    static constexpr constant type max = metal::numeric_limits<type>::max(); \

    static constexpr constant type min = metal::numeric_limits<type>::min(); \

    static constexpr constant type finite_max =                              \

        metal::numeric_limits<type>::max();                                  \

    static constexpr constant type finite_min =                              \

        metal::numeric_limits<type>::min();                                  \

  };


instantiate_default_limit(uint8_t);

instantiate_default_limit(uint16_t);

instantiate_default_limit(uint32_t);

instantiate_default_limit(uint64_t);

instantiate_default_limit(int8_t);

instantiate_default_limit(int16_t);

instantiate_default_limit(int32_t);

instantiate_default_limit(int64_t);


#define instantiate_float_limit(type)             \

  template <>                                     \

  struct Limits<type> {                           \

    static constexpr constant type max =          \

        metal::numeric_limits<type>::infinity();  \

    static constexpr constant type min =          \

        -metal::numeric_limits<type>::infinity(); \

    static constexpr constant type finite_max =   \

        metal::numeric_limits<type>::max();       \

    static constexpr constant type finite_min =   \

        -metal::numeric_limits<type>::max();      \

  };


instantiate_float_limit(half);

instantiate_float_limit(float);

instantiate_float_limit(bfloat16_t);


template <>


struct Limits<bool> {

  static constexpr constant bool max = true;

  static constexpr constant bool min = false;

};


template <>


struct Limits<complex64_t> {

  static constexpr constant complex64_t max = complex64_t(

      metal::numeric_limits<float>::infinity(),

      metal::numeric_limits<float>::infinity());

  static constexpr constant complex64_t min = complex64_t(

      -metal::numeric_limits<float>::infinity(),

      -metal::numeric_limits<float>::infinity());

};


// Indexing utils


#define MLX_MTL_PRAGMA_UNROLL _Pragma("clang loop unroll(full)")


// Single Array with generic dims


template <typename stride_t>


METAL_FUNC stride_t elem_to_loc(

    uint elem,

    device const int* shape,

    device const stride_t* strides,

    int ndim) {

  stride_t loc = 0;

  for (int i = ndim - 1; i >= 0 && elem > 0; --i) {

    loc += (elem % shape[i]) * strides[i];

    elem /= shape[i];

  }

  return loc;

}


template <typename stride_t>


METAL_FUNC stride_t elem_to_loc(

    uint elem,

    constant const int* shape,

    constant const stride_t* strides,

    int ndim) {

  stride_t loc = 0;

  for (int i = ndim - 1; i >= 0 && elem > 0; --i) {

    loc += (elem % shape[i]) * strides[i];

    elem /= shape[i];

  }

  return loc;

}


template <typename stride_t>


METAL_FUNC stride_t elem_to_loc(

    stride_t elem,

    device const int* shape,

    device const stride_t* strides,

    int ndim) {

  stride_t loc = 0;

  for (int i = ndim - 1; i >= 0 && elem > 0; --i) {

    loc += (elem % shape[i]) * strides[i];

    elem /= shape[i];

  }

  return loc;

}


template <typename stride_t>


METAL_FUNC stride_t elem_to_loc(

    stride_t elem,

    constant const int* shape,

    constant const stride_t* strides,

    int ndim) {

  stride_t loc = 0;

  for (int i = ndim - 1; i >= 0 && elem > 0; --i) {

    loc += (elem % shape[i]) * strides[i];

    elem /= shape[i];

  }

  return loc;

}


// Non templated version to handle arbitrary dims

template <typename stride_t>


METAL_FUNC stride_t elem_to_loc(

    uint3 elem,

    constant const int* shape,

    constant const stride_t* strides,

    int ndim) {

  stride_t loc = elem.x * strides[ndim - 1] + elem.y * strides[ndim - 2];

  for (int d = ndim - 3; d >= 0; --d) {

    loc += (elem.z % shape[d]) * strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


// Single Array with fixed N dims


template <typename stride_t>


METAL_FUNC stride_t elem_to_loc_1(uint elem, constant const stride_t& stride) {

  return elem * stride;

}


template <typename stride_t>

METAL_FUNC stride_t


elem_to_loc_2(uint2 elem, constant const stride_t strides[2]) {

  return elem.x * strides[1] + elem.y * strides[0];

}


template <typename stride_t>

METAL_FUNC stride_t


elem_to_loc_3(uint3 elem, constant const stride_t strides[3]) {

  return elem.x * strides[2] + elem.y * strides[1] + elem.z * strides[0];

}


template <int NDIM>


METAL_FUNC size_t elem_to_loc_nd(

    uint elem,

    device const int* shape,

    device const size_t* strides) {

  size_t loc = (elem % shape[NDIM - 1]) * strides[NDIM - 1];


  MLX_MTL_PRAGMA_UNROLL

  for (int d = NDIM - 2; d >= 0; --d) {

    elem /= shape[d + 1];

    loc += (elem % shape[d]) * strides[d];

  }


  return loc;

}


template <int NDIM>


METAL_FUNC size_t elem_to_loc_nd(

    uint3 elem,

    constant const int shape[NDIM],

    constant const size_t strides[NDIM]) {

  size_t loc = elem.x * strides[NDIM - 1] + elem.y * strides[NDIM - 2];

  for (int d = NDIM - 3; d >= 0; --d) {

    loc += (elem.z % shape[d]) * strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


template <int NDIM>


METAL_FUNC int64_t elem_to_loc_nd(

    uint elem,

    constant const int shape[NDIM],

    constant const int64_t strides[NDIM]) {

  int64_t loc = (elem % shape[NDIM - 1]) * strides[NDIM - 1];


  MLX_MTL_PRAGMA_UNROLL

  for (int d = NDIM - 2; d >= 0; --d) {

    elem /= shape[d + 1];

    loc += (elem % shape[d]) * strides[d];

  }


  return loc;

}


template <int NDIM>


METAL_FUNC int64_t elem_to_loc_nd(

    uint3 elem,

    constant const int shape[NDIM],

    constant const int64_t strides[NDIM]) {

  int64_t loc = elem.x * strides[NDIM - 1] + elem.y * strides[NDIM - 2];

  for (int d = NDIM - 3; d >= 0; --d) {

    loc += (elem.z % shape[d]) * strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


// Multiple Arrays with generic dims


METAL_FUNC uint2 elem_to_loc_2_nd(

    uint3 elem,

    constant const int* shape,

    constant const size_t* a_strides,

    constant const size_t* b_strides,

    int ndim) {

  uint2 loc = {

      static_cast<uint>(

          elem.x * a_strides[ndim - 1] + elem.y * a_strides[ndim - 2]),

      static_cast<uint>(

          elem.x * b_strides[ndim - 1] + elem.y * b_strides[ndim - 2])};

  for (int d = ndim - 3; d >= 0; --d) {

    uint l = elem.z % shape[d];

    loc.x += l * a_strides[d];

    loc.y += l * b_strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


METAL_FUNC uint3 elem_to_loc_3_nd(

    uint3 elem,

    constant const int* shape,

    constant const size_t* a_strides,

    constant const size_t* b_strides,

    constant const size_t* c_strides,

    int ndim) {

  uint3 loc = {

      static_cast<uint>(

          elem.x * a_strides[ndim - 1] + elem.y * a_strides[ndim - 2]),

      static_cast<uint>(

          elem.x * b_strides[ndim - 1] + elem.y * b_strides[ndim - 2]),

      static_cast<uint>(

          elem.x * c_strides[ndim - 1] + elem.y * c_strides[ndim - 2])};

  for (int d = ndim - 3; d >= 0; --d) {

    uint l = elem.z % shape[d];

    loc.x += l * a_strides[d];

    loc.y += l * b_strides[d];

    loc.z += l * c_strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


// Multiple Arrays with fixed N dims


template <int NDIM>


METAL_FUNC uint2 elem_to_loc_2_nd(

    uint3 elem,

    constant const int shape[NDIM],

    constant const size_t a_strides[NDIM],

    constant const size_t b_strides[NDIM]) {

  uint2 loc = {

      static_cast<uint>(

          elem.x * a_strides[NDIM - 1] + elem.y * a_strides[NDIM - 2]),

      static_cast<uint>(

          elem.x * b_strides[NDIM - 1] + elem.y * b_strides[NDIM - 2])};

  for (int d = NDIM - 3; d >= 0; --d) {

    uint l = elem.z % shape[d];

    loc.x += l * a_strides[d];

    loc.y += l * b_strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


template <int NDIM>


METAL_FUNC uint3 elem_to_loc_3_nd(

    uint3 elem,

    constant const int shape[NDIM],

    constant const size_t a_strides[NDIM],

    constant const size_t b_strides[NDIM],

    constant const size_t c_strides[NDIM]) {

  uint3 loc = {

      static_cast<uint>(

          elem.x * a_strides[NDIM - 1] + elem.y * a_strides[NDIM - 2]),

      static_cast<uint>(

          elem.x * b_strides[NDIM - 1] + elem.y * b_strides[NDIM - 2]),

      static_cast<uint>(

          elem.x * c_strides[NDIM - 1] + elem.y * c_strides[NDIM - 2])};

  for (int d = NDIM - 3; d >= 0; --d) {

    uint l = elem.z % shape[d];

    loc.x += l * a_strides[d];

    loc.y += l * b_strides[d];

    loc.z += l * c_strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


// Elem to loc in a loop utils


template <int dim, typename offset_t = size_t>


struct looped_elem_to_loc {

  looped_elem_to_loc<dim - 1, offset_t> inner_looper;

  offset_t offset{0};

  int index{0};


  void next(const constant int* shape, const constant size_t* strides) {

    index++;

    offset += strides[dim - 1];


    if (index >= shape[dim - 1]) {

      index = 0;

      inner_looper.next(shape, strides);

      offset = inner_looper.offset;

    }

  }


  void next(int n, const constant int* shape, const constant size_t* strides) {

    index += n;

    offset += n * strides[dim - 1];


    if (index >= shape[dim - 1]) {

      int extra = index - shape[dim - 1];

      index = 0;

      inner_looper.next(shape, strides);

      offset = inner_looper.offset;

      if (extra > 0) {

        next(extra, shape, strides);

      }

    }

  }


  offset_t


  location(offset_t, const constant int*, const constant size_t*, int) {

    return offset;

  }


};


template <typename offset_t>


struct looped_elem_to_loc<1, offset_t> {

  offset_t offset{0};


  void next(const constant int*, const constant size_t* strides) {

    offset += strides[0];

  }


  void next(int n, const constant int*, const constant size_t* strides) {

    offset += n * strides[0];

  }


  offset_t


  location(offset_t, const constant int*, const constant size_t*, int) {

    return offset;

  }


};


template <typename offset_t>


struct looped_elem_to_loc<0, offset_t> {

  void next(const constant int*, const constant size_t*) {}

  void next(int, const constant int*, const constant size_t*) {}


  offset_t location(

      offset_t idx,

      const constant int* shape,

      const constant size_t* strides,

      int ndim) {

    return elem_to_loc(idx, shape, strides, ndim);

  }


};


// Calculation utils


template <typename T, typename U>


inline T ceildiv(T N, U M) {

  return (N + M - 1) / M;

}


// https://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html#1202


inline float log1p(float x) {

  float xp1 = 1.0f + x;

  if (xp1 == Limits<float>::max) {

    return Limits<float>::max;

  }

  if (xp1 == 1.0f) {

    return x;

  }


  return x * (metal::log(xp1) / (xp1 - 1.0f));

}


inline bfloat16_t log1p(bfloat16_t x) {

  float xp1 = 1.0f + static_cast<float>(x);

  if (xp1 == Limits<float>::max) {

    return Limits<bfloat16_t>::max;

  }

  if (xp1 == 1.0f) {

    return x;

  }


  return bfloat16_t(x * (metal::log(xp1) / (xp1 - 1.0f)));

}


// SIMD shuffle ops


inline uint64_t simd_shuffle_down(uint64_t data, uint16_t delta) {

  return as_type<uint64_t>(

      metal::simd_shuffle_down(as_type<uint2>(data), delta));

}


inline int64_t simd_shuffle_down(int64_t data, uint16_t delta) {

  return as_type<int64_t>(

      metal::simd_shuffle_down(as_type<uint2>(data), delta));

}


inline bool simd_shuffle_down(bool data, uint16_t delta) {

  return simd_shuffle_down(static_cast<uint32_t>(data), delta);

}


inline complex64_t simd_shuffle_down(complex64_t data, uint16_t delta) {

  return complex64_t(

      simd_shuffle_down(data.real, delta), simd_shuffle_down(data.imag, delta));

}


next
BufferHolder * next
Definition allocator.h:37

bf16.h

bfloat16_t
struct _MLX_BFloat16 bfloat16_t
Definition bf16.h:257

complex.h

MLX_MTL_PRAGMA_UNROLL
#define MLX_MTL_PRAGMA_UNROLL
Definition utils.h:81

elem_to_loc_1
METAL_FUNC stride_t elem_to_loc_1(uint elem, constant const stride_t &stride)
Definition utils.h:161

instantiate_float_limit
#define instantiate_float_limit(type)
Definition utils.h:44

log1p
float log1p(float x)
Definition utils.h:414

elem_to_loc_3
METAL_FUNC stride_t elem_to_loc_3(uint3 elem, constant const stride_t strides[3])
Definition utils.h:173

elem_to_loc
METAL_FUNC stride_t elem_to_loc(uint elem, device const int *shape, device const stride_t *strides, int ndim)
Definition utils.h:87

elem_to_loc_2_nd
METAL_FUNC uint2 elem_to_loc_2_nd(uint3 elem, constant const int *shape, constant const size_t *a_strides, constant const size_t *b_strides, int ndim)
Definition utils.h:238

elem_to_loc_3_nd
METAL_FUNC uint3 elem_to_loc_3_nd(uint3 elem, constant const int *shape, constant const size_t *a_strides, constant const size_t *b_strides, constant const size_t *c_strides, int ndim)
Definition utils.h:258

ceildiv
T ceildiv(T N, U M)
Compute ceil((float)N/(float)M)
Definition utils.h:409

elem_to_loc_nd
METAL_FUNC size_t elem_to_loc_nd(uint elem, device const int *shape, device const size_t *strides)
Definition utils.h:178

instantiate_default_limit
#define instantiate_default_limit(type)
Definition utils.h:24

float16_t
half float16_t
Definition utils.h:10

elem_to_loc_2
METAL_FUNC stride_t elem_to_loc_2(uint2 elem, constant const stride_t strides[2])
Definition utils.h:167

defines.h

metal::log
METAL_FUNC bfloat16_t log(bfloat16_t x)
Definition bf16_math.h:234

metal::simd_shuffle_down
METAL_FUNC bfloat16_t simd_shuffle_down(bfloat16_t data, ushort delta)
Definition bf16_math.h:391

_MLX_BFloat16
Definition bf16.h:54

Limits
Definition utils.h:17

Limits::max
static const constant U max
Definition utils.h:18

Limits::finite_max
static const constant U finite_max
Definition utils.h:20

Limits::min
static const constant U min
Definition utils.h:19

Limits::finite_min
static const constant U finite_min
Definition utils.h:21

complex64_t
Definition complex.h:20

complex64_t::imag
float imag
Definition complex.h:22

complex64_t::real
float real
Definition complex.h:21

looped_elem_to_loc< 0, offset_t >::next
void next(int, const constant int *, const constant size_t *)
Definition utils.h:392

looped_elem_to_loc< 0, offset_t >::location
offset_t location(offset_t idx, const constant int *shape, const constant size_t *strides, int ndim)
Definition utils.h:394

looped_elem_to_loc< 0, offset_t >::next
void next(const constant int *, const constant size_t *)
Definition utils.h:391

looped_elem_to_loc< 1, offset_t >::location
offset_t location(offset_t, const constant int *, const constant size_t *, int)
Definition utils.h:384

looped_elem_to_loc< 1, offset_t >::next
void next(const constant int *, const constant size_t *strides)
Definition utils.h:375

looped_elem_to_loc< 1, offset_t >::next
void next(int n, const constant int *, const constant size_t *strides)
Definition utils.h:379

looped_elem_to_loc
Definition utils.h:334

looped_elem_to_loc::next
void next(const constant int *shape, const constant size_t *strides)
Definition utils.h:339

looped_elem_to_loc::offset
offset_t offset
Definition utils.h:336

looped_elem_to_loc::index
int index
Definition utils.h:337

looped_elem_to_loc::inner_looper
looped_elem_to_loc< dim - 1, offset_t > inner_looper
Definition utils.h:335

looped_elem_to_loc::location
offset_t location(offset_t, const constant int *, const constant size_t *, int)
Definition utils.h:366

looped_elem_to_loc::next
void next(int n, const constant int *shape, const constant size_t *strides)
Definition utils.h:350