build/html/backend_2metal_2kernels_2utils_8h_source.html

// Copyright © 2023-2024 Apple Inc.


#pragma once


#include <metal_math>

#include "mlx/backend/metal/kernels/bf16.h"

#include "mlx/backend/metal/kernels/complex.h"

#include "mlx/backend/metal/kernels/defines.h"


typedef half float16_t;


// Type limits utils


template <typename U>


struct Limits {

  static const constant U max = metal::numeric_limits<U>::max();

  static const constant U min = metal::numeric_limits<U>::min();

  static const constant U finite_max = metal::numeric_limits<U>::max();

  static const constant U finite_min = metal::numeric_limits<U>::min();

};


#define instantiate_default_limit(type)                                      \

  template <>                                                                \

  struct Limits<type> {                                                      \

    static constexpr constant type max = metal::numeric_limits<type>::max(); \

    static constexpr constant type min = metal::numeric_limits<type>::min(); \

    static constexpr constant type finite_max =                              \

        metal::numeric_limits<type>::max();                                  \

    static constexpr constant type finite_min =                              \

        metal::numeric_limits<type>::min();                                  \

  };


instantiate_default_limit(uint8_t);

instantiate_default_limit(uint16_t);

instantiate_default_limit(uint32_t);

instantiate_default_limit(uint64_t);

instantiate_default_limit(int8_t);

instantiate_default_limit(int16_t);

instantiate_default_limit(int32_t);

instantiate_default_limit(int64_t);


#define instantiate_float_limit(type)             \

  template <>                                     \

  struct Limits<type> {                           \

    static constexpr constant type max =          \

        metal::numeric_limits<type>::infinity();  \

    static constexpr constant type min =          \

        -metal::numeric_limits<type>::infinity(); \

    static constexpr constant type finite_max =   \

        metal::numeric_limits<type>::max();       \

    static constexpr constant type finite_min =   \

        -metal::numeric_limits<type>::max();      \

  };


instantiate_float_limit(half);

instantiate_float_limit(float);

instantiate_float_limit(bfloat16_t);


template <>


struct Limits<bool> {

  static constexpr constant bool max = true;

  static constexpr constant bool min = false;

};


template <>


struct Limits<complex64_t> {

  static constexpr constant complex64_t max = complex64_t(

      metal::numeric_limits<float>::infinity(),

      metal::numeric_limits<float>::infinity());

  static constexpr constant complex64_t min = complex64_t(

      -metal::numeric_limits<float>::infinity(),

      -metal::numeric_limits<float>::infinity());

};


// Indexing utils


#define MLX_MTL_PRAGMA_UNROLL _Pragma("clang loop unroll(full)")


// Single Array with generic dims


template <typename stride_t>


METAL_FUNC stride_t elem_to_loc(

    uint elem,

    constant const int* shape,

    constant const stride_t* strides,

    int ndim) {

  stride_t loc = 0;

  for (int i = ndim - 1; i >= 0 && elem > 0; --i) {

    loc += (elem % shape[i]) * strides[i];

    elem /= shape[i];

  }

  return loc;

}


template <typename stride_t>


METAL_FUNC stride_t elem_to_loc(

    stride_t elem,

    constant const int* shape,

    constant const stride_t* strides,

    int ndim) {

  stride_t loc = 0;

  for (int i = ndim - 1; i >= 0 && elem > 0; --i) {

    loc += (elem % shape[i]) * strides[i];

    elem /= shape[i];

  }

  return loc;

}


// Non templated version to handle arbitrary dims

template <typename stride_t>


METAL_FUNC stride_t elem_to_loc(

    uint3 elem,

    constant const int* shape,

    constant const stride_t* strides,

    int ndim) {

  stride_t loc = elem.x * strides[ndim - 1] + elem.y * strides[ndim - 2];

  for (int d = ndim - 3; d >= 0; --d) {

    loc += (elem.z % shape[d]) * strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


// Single Array with fixed N dims


template <typename stride_t>


METAL_FUNC stride_t elem_to_loc_1(uint elem, constant const stride_t& stride) {

  return elem * stride;

}


template <typename stride_t>

METAL_FUNC stride_t


elem_to_loc_2(uint2 elem, constant const stride_t strides[2]) {

  return elem.x * strides[1] + elem.y * strides[0];

}


template <typename stride_t>

METAL_FUNC stride_t


elem_to_loc_3(uint3 elem, constant const stride_t strides[3]) {

  return elem.x * strides[2] + elem.y * strides[1] + elem.z * strides[0];

}


// Multiple Arrays with generic dims


template <typename stride_t>


METAL_FUNC ulong2 elem_to_loc_2_nd(

    uint3 elem,

    constant const int* shape,

    constant const stride_t* a_strides,

    constant const stride_t* b_strides,

    int ndim) {

  ulong2 loc = {

      ulong(elem.x * a_strides[ndim - 1] + elem.y * a_strides[ndim - 2]),

      ulong(elem.x * b_strides[ndim - 1] + elem.y * b_strides[ndim - 2])};

  for (int d = ndim - 3; d >= 0; --d) {

    uint l = elem.z % shape[d];

    loc.x += l * a_strides[d];

    loc.y += l * b_strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


METAL_FUNC ulong3 elem_to_loc_3_nd(

    uint3 elem,

    constant const int* shape,

    constant const size_t* a_strides,

    constant const size_t* b_strides,

    constant const size_t* c_strides,

    int ndim) {

  ulong3 loc = {

      elem.x * a_strides[ndim - 1] + elem.y * a_strides[ndim - 2],

      elem.x * b_strides[ndim - 1] + elem.y * b_strides[ndim - 2],

      elem.x * c_strides[ndim - 1] + elem.y * c_strides[ndim - 2]};

  for (int d = ndim - 3; d >= 0; --d) {

    uint l = elem.z % shape[d];

    loc.x += l * a_strides[d];

    loc.y += l * b_strides[d];

    loc.z += l * c_strides[d];

    elem.z /= shape[d];

  }

  return loc;

}


// Elem to loc in a loop utils


template <int dim, typename offset_t = size_t>


struct looped_elem_to_loc {

  looped_elem_to_loc<dim - 1, offset_t> inner_looper;

  offset_t offset{0};

  int index{0};


  void next(const constant int* shape, const constant size_t* strides) {

    index++;

    offset += strides[dim - 1];


    if (index >= shape[dim - 1]) {

      index = 0;

      inner_looper.next(shape, strides);

      offset = inner_looper.offset;

    }

  }


  void next(int n, const constant int* shape, const constant size_t* strides) {

    index += n;

    offset += n * strides[dim - 1];


    if (index >= shape[dim - 1]) {

      int extra = index - shape[dim - 1];

      index = 0;

      inner_looper.next(shape, strides);

      offset = inner_looper.offset;

      if (extra > 0) {

        next(extra, shape, strides);

      }

    }

  }


  offset_t


  location(offset_t, const constant int*, const constant size_t*, int) {

    return offset;

  }


};


template <typename offset_t>


struct looped_elem_to_loc<1, offset_t> {

  offset_t offset{0};


  void next(const constant int*, const constant size_t* strides) {

    offset += strides[0];

  }


  void next(int n, const constant int*, const constant size_t* strides) {

    offset += n * strides[0];

  }


  offset_t


  location(offset_t, const constant int*, const constant size_t*, int) {

    return offset;

  }


};


template <typename offset_t>


struct looped_elem_to_loc<0, offset_t> {

  void next(const constant int*, const constant size_t*) {}

  void next(int, const constant int*, const constant size_t*) {}


  offset_t location(

      offset_t idx,

      const constant int* shape,

      const constant size_t* strides,

      int ndim) {

    return elem_to_loc(idx, shape, strides, ndim);

  }


};


// Calculation utils


template <typename T, typename U>


inline T ceildiv(T N, U M) {

  return (N + M - 1) / M;

}


// https://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html#1202


inline float log1p(float x) {

  float xp1 = 1.0f + x;

  if (xp1 == Limits<float>::max) {

    return Limits<float>::max;

  }

  if (xp1 == 1.0f) {

    return x;

  }


  return x * (metal::log(xp1) / (xp1 - 1.0f));

}


inline bfloat16_t log1p(bfloat16_t x) {

  float xp1 = 1.0f + static_cast<float>(x);

  if (xp1 == Limits<float>::max) {

    return Limits<bfloat16_t>::max;

  }

  if (xp1 == 1.0f) {

    return x;

  }


  return bfloat16_t(x * (metal::log(xp1) / (xp1 - 1.0f)));

}


// SIMD shuffle ops


inline uint64_t simd_shuffle_down(uint64_t data, uint16_t delta) {

  return as_type<uint64_t>(

      metal::simd_shuffle_down(as_type<uint2>(data), delta));

}


inline int64_t simd_shuffle_down(int64_t data, uint16_t delta) {

  return as_type<int64_t>(

      metal::simd_shuffle_down(as_type<uint2>(data), delta));

}


inline bool simd_shuffle_down(bool data, uint16_t delta) {

  return simd_shuffle_down(static_cast<uint32_t>(data), delta);

}


inline complex64_t simd_shuffle_down(complex64_t data, uint16_t delta) {

  return complex64_t(

      simd_shuffle_down(data.real, delta), simd_shuffle_down(data.imag, delta));

}


inline uint64_t simd_shuffle_up(uint64_t data, uint16_t delta) {

  return as_type<uint64_t>(metal::simd_shuffle_up(as_type<uint2>(data), delta));

}


inline int64_t simd_shuffle_up(int64_t data, uint16_t delta) {

  return as_type<int64_t>(metal::simd_shuffle_up(as_type<uint2>(data), delta));

}


inline bool simd_shuffle_up(bool data, uint16_t delta) {

  return simd_shuffle_up(static_cast<uint32_t>(data), delta);

}


inline complex64_t simd_shuffle_up(complex64_t data, uint16_t delta) {

  return complex64_t(

      simd_shuffle_up(data.real, delta), simd_shuffle_up(data.imag, delta));

}


inline uint64_t


simd_shuffle_and_fill_up(uint64_t data, uint64_t filling, uint16_t delta) {

  return as_type<uint64_t>(metal::simd_shuffle_and_fill_up(

      as_type<uint2>(data), as_type<uint2>(filling), delta));

}


inline int64_t


simd_shuffle_and_fill_up(int64_t data, int64_t filling, uint16_t delta) {

  return as_type<int64_t>(metal::simd_shuffle_and_fill_up(

      as_type<uint2>(data), as_type<uint2>(filling), delta));

}


inline bool simd_shuffle_and_fill_up(bool data, bool filling, uint16_t delta) {

  return simd_shuffle_and_fill_up(

      static_cast<uint32_t>(data), static_cast<uint32_t>(filling), delta);

}


inline complex64_t simd_shuffle_and_fill_up(

    complex64_t data,

    complex64_t filling,

    uint16_t delta) {

  return complex64_t(

      simd_shuffle_and_fill_up(data.real, filling.real, delta),

      simd_shuffle_and_fill_up(data.imag, filling.imag, delta));

}


inline uint64_t simd_shuffle(uint64_t data, uint16_t lane) {

  return as_type<uint64_t>(metal::simd_shuffle(as_type<uint2>(data), lane));

}


inline int64_t simd_shuffle(int64_t data, uint16_t lane) {

  return as_type<int64_t>(metal::simd_shuffle(as_type<uint2>(data), lane));

}


inline bool simd_shuffle(bool data, uint16_t lane) {

  return simd_shuffle(static_cast<uint32_t>(data), lane);

}


inline complex64_t simd_shuffle(complex64_t data, uint16_t lane) {

  return complex64_t(

      simd_shuffle(data.real, lane), simd_shuffle(data.imag, lane));

}


next
BufferHolder * next
Definition allocator.h:38

bf16.h

bfloat16_t
struct _MLX_BFloat16 bfloat16_t
Definition bf16.h:257

complex.h

elem_to_loc_2_nd
METAL_FUNC ulong2 elem_to_loc_2_nd(uint3 elem, constant const int *shape, constant const stride_t *a_strides, constant const stride_t *b_strides, int ndim)
Definition utils.h:153

elem_to_loc_1
METAL_FUNC stride_t elem_to_loc_1(uint elem, constant const stride_t &stride)
Definition utils.h:133

instantiate_float_limit
#define instantiate_float_limit(type)
Definition utils.h:44

log1p
float log1p(float x)
Definition utils.h:277

elem_to_loc_3
METAL_FUNC stride_t elem_to_loc_3(uint3 elem, constant const stride_t strides[3])
Definition utils.h:145

elem_to_loc_3_nd
METAL_FUNC ulong3 elem_to_loc_3_nd(uint3 elem, constant const int *shape, constant const size_t *a_strides, constant const size_t *b_strides, constant const size_t *c_strides, int ndim)
Definition utils.h:171

ceildiv
T ceildiv(T N, U M)
Compute ceil((float)N/(float)M)
Definition utils.h:272

elem_to_loc
METAL_FUNC stride_t elem_to_loc(uint elem, constant const int *shape, constant const stride_t *strides, int ndim)
Definition utils.h:87

instantiate_default_limit
#define instantiate_default_limit(type)
Definition utils.h:24

float16_t
half float16_t
Definition utils.h:10

elem_to_loc_2
METAL_FUNC stride_t elem_to_loc_2(uint2 elem, constant const stride_t strides[2])
Definition utils.h:139

defines.h

metal::simd_shuffle_and_fill_up
METAL_FUNC bfloat16_t simd_shuffle_and_fill_up(bfloat16_t data, bfloat16_t filling_data, ushort delta, ushort modulo)
Definition bf16_math.h:391

metal::simd_shuffle
METAL_FUNC bfloat16_t simd_shuffle(bfloat16_t data, ushort simd_lane_id)
Definition bf16_math.h:391

metal::log
METAL_FUNC bfloat16_t log(bfloat16_t x)
Definition bf16_math.h:234

metal::simd_shuffle_down
METAL_FUNC bfloat16_t simd_shuffle_down(bfloat16_t data, ushort delta)
Definition bf16_math.h:391

metal::simd_shuffle_up
METAL_FUNC bfloat16_t simd_shuffle_up(bfloat16_t data, ushort delta)
Definition bf16_math.h:391

pocketfft::detail::stride_t
std::vector< ptrdiff_t > stride_t
Definition pocketfft.h:103

_MLX_BFloat16
Definition bf16.h:54

Limits
Definition utils.h:17

Limits::max
static const constant U max
Definition utils.h:18

Limits::finite_max
static const constant U finite_max
Definition utils.h:20

Limits::min
static const constant U min
Definition utils.h:19

Limits::finite_min
static const constant U finite_min
Definition utils.h:21

complex64_t
Definition complex.h:20

complex64_t::imag
float imag
Definition complex.h:22

complex64_t::real
float real
Definition complex.h:21

looped_elem_to_loc< 0, offset_t >::next
void next(int, const constant int *, const constant size_t *)
Definition utils.h:255

looped_elem_to_loc< 0, offset_t >::location
offset_t location(offset_t idx, const constant int *shape, const constant size_t *strides, int ndim)
Definition utils.h:257

looped_elem_to_loc< 0, offset_t >::next
void next(const constant int *, const constant size_t *)
Definition utils.h:254

looped_elem_to_loc< 1, offset_t >::location
offset_t location(offset_t, const constant int *, const constant size_t *, int)
Definition utils.h:247

looped_elem_to_loc< 1, offset_t >::next
void next(const constant int *, const constant size_t *strides)
Definition utils.h:238

looped_elem_to_loc< 1, offset_t >::next
void next(int n, const constant int *, const constant size_t *strides)
Definition utils.h:242

looped_elem_to_loc
Definition utils.h:197

looped_elem_to_loc::next
void next(const constant int *shape, const constant size_t *strides)
Definition utils.h:202

looped_elem_to_loc::offset
offset_t offset
Definition utils.h:199

looped_elem_to_loc::index
int index
Definition utils.h:200

looped_elem_to_loc::inner_looper
looped_elem_to_loc< dim - 1, offset_t > inner_looper
Definition utils.h:198

looped_elem_to_loc::location
offset_t location(offset_t, const constant int *, const constant size_t *, int)
Definition utils.h:229

looped_elem_to_loc::next
void next(int n, const constant int *shape, const constant size_t *strides)
Definition utils.h:213