[CUDA] Matmul utils initial commit (#2441)

2025-12-16 01:49:05 +08:00 · 2025-08-01 14:22:25 -07:00
parent 86258f292f
commit be9bc96da4
32 changed files with 856 additions and 14 deletions
--- a/mlx/backend/cuda/quantized/affine_quantize.cu
+++ b/mlx/backend/cuda/quantized/affine_quantize.cu
@@ -261,6 +261,7 @@ void affine_quantize(
            kernel,
            num_blocks,
            block_dims,
+            0,
            w.data<T>(),
            wq.data<uint8_t>(),
            scales.data<T>(),
@@ -316,6 +317,7 @@ void affine_dequantize(
            kernel,
            num_blocks,
            block_dims,
+            0,
            wq.data<uint8_t>(),
            scales.data<T>(),
            biases.data<T>(),