build/html/fast_8h_source.html

// Copyright © 2023-2024 Apple Inc.


#pragma once


#include <optional>


#include "mlx/utils.h"


namespace mlx::core::fast {


array rms_norm(

    const array& x,

    const array& weight,

    float eps,

    StreamOrDevice s = {});


array layer_norm(

    const array& x,

    const std::optional<array>& weight,

    const std::optional<array>& bias,

    float eps,

    StreamOrDevice s = {});


array rope(

    const array& x,

    int dims,

    bool traditional,

    std::optional<float> base,

    float scale,

    int offset,

    const std::optional<array>& freqs = std::nullopt,

    StreamOrDevice s = {});


array rope(

    const array& x,

    int dims,

    bool traditional,

    std::optional<float> base,

    float scale,

    const array& offset,

    const std::optional<array>& freqs = std::nullopt,

    StreamOrDevice s = {});


array scaled_dot_product_attention(

    const array& queries,

    const array& keys,

    const array& values,

    const float scale,

    const std::optional<array>& mask = std::nullopt,

    const std::optional<int> memory_efficient_threshold = std::nullopt,

    StreamOrDevice s = {});


std::tuple<array, array, array> affine_quantize(

    const array& w,

    int group_size = 64,

    int bits = 4,

    StreamOrDevice s = {});


array affine_dequantize(

    const array& w,

    const array& scales,

    const array& biases,

    int group_size = 64,

    int bits = 4,

    StreamOrDevice s = {});


typedef std::variant<int, bool, Dtype> TemplateArg;


typedef std::function<std::vector<array>(

    const std::vector<array>&,

    const std::vector<Shape>&,

    const std::vector<Dtype>&,

    std::tuple<int, int, int>,

    std::tuple<int, int, int>,

    std::vector<std::pair<std::string, TemplateArg>>,

    std::optional<float>,

    bool,

    StreamOrDevice)>

    MetalKernelFunction;


MetalKernelFunction metal_kernel(

    const std::string& name,

    const std::vector<std::string>& input_names,

    const std::vector<std::string>& output_names,

    const std::string& source,

    const std::string& header = "",

    bool ensure_row_contiguous = true,

    bool atomic_outputs = false);


} // namespace mlx::core::fast


mlx::core::array
Definition array.h:24

mlx::core::fast
Definition fast.h:9

mlx::core::fast::layer_norm
array layer_norm(const array &x, const std::optional< array > &weight, const std::optional< array > &bias, float eps, StreamOrDevice s={})

mlx::core::fast::affine_dequantize
array affine_dequantize(const array &w, const array &scales, const array &biases, int group_size=64, int bits=4, StreamOrDevice s={})

mlx::core::fast::scaled_dot_product_attention
array scaled_dot_product_attention(const array &queries, const array &keys, const array &values, const float scale, const std::optional< array > &mask=std::nullopt, const std::optional< int > memory_efficient_threshold=std::nullopt, StreamOrDevice s={})
Computes: O = softmax(Q @ K.T) @ V.

mlx::core::fast::rope
array rope(const array &x, int dims, bool traditional, std::optional< float > base, float scale, int offset, const std::optional< array > &freqs=std::nullopt, StreamOrDevice s={})

mlx::core::fast::TemplateArg
std::variant< int, bool, Dtype > TemplateArg
Definition fast.h:68

mlx::core::fast::MetalKernelFunction
std::function< std::vector< array >(const std::vector< array > &, const std::vector< Shape > &, const std::vector< Dtype > &, std::tuple< int, int, int >, std::tuple< int, int, int >, std::vector< std::pair< std::string, TemplateArg > >, std::optional< float >, bool, StreamOrDevice)> MetalKernelFunction
Definition fast.h:80

mlx::core::fast::affine_quantize
std::tuple< array, array, array > affine_quantize(const array &w, int group_size=64, int bits=4, StreamOrDevice s={})

mlx::core::fast::metal_kernel
MetalKernelFunction metal_kernel(const std::string &name, const std::vector< std::string > &input_names, const std::vector< std::string > &output_names, const std::string &source, const std::string &header="", bool ensure_row_contiguous=true, bool atomic_outputs=false)

mlx::core::fast::rms_norm
array rms_norm(const array &x, const array &weight, float eps, StreamOrDevice s={})

mlx::core::StreamOrDevice
std::variant< std::monostate, Stream, Device > StreamOrDevice
Definition utils.h:15

utils.h