Add mode parameter for quantization (#2499)

* add mode parameter for quantization * mxfp4 quantize/dequantize + start of optional biases * mxfp4 works * speedup * cpu mxfp4 * fix * fix test tol * fix * refactor * add quant mode enum
2025-12-16 01:49:05 +08:00 · 2025-08-28 06:45:26 -07:00
parent 7ef8a6f2d5
commit 70560b6bd5
28 changed files with 3635 additions and 757 deletions
--- a/python/tests/cuda_skip.py
+++ b/python/tests/cuda_skip.py
@@ -48,6 +48,8 @@ cuda_skip = {
    "TestQuantized.test_qmm_shapes",
    "TestQuantized.test_qmm_vjp",
    "TestQuantized.test_qmv",
+    "TestQuantized.test_mxfp4_qmv",
+    "TestQuantized.test_mxfp4_qvm",
    "TestQuantized.test_qvm",
    "TestQuantized.test_qvm_splitk",
    "TestQuantized.test_small_matrix",