Explicit barriers with concurrent dispatch (#977)

2025-12-16 01:49:05 +08:00 · 2024-04-10 21:45:31 -07:00
parent 8580d997ff
commit 12d4507ee3
21 changed files with 326 additions and 267 deletions
--- a/mlx/backend/metal/quantized.cpp
+++ b/mlx/backend/metal/quantized.cpp
@@ -48,7 +48,7 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
            << bits_ << "_fast";

      // Encode and dispatch kernel
-      auto compute_encoder = d.get_command_encoder(s.index);
+      auto& compute_encoder = d.get_command_encoder(s.index);
      auto kernel = d.get_kernel(kname.str());
      compute_encoder->setComputePipelineState(kernel);

@@ -57,11 +57,11 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
      MTL::Size group_dims = MTL::Size(bd, 2, 1);
      MTL::Size grid_dims = MTL::Size(1, O / bo, B);

-      set_array_buffer(compute_encoder, w, 0);
-      set_array_buffer(compute_encoder, scales, 1);
-      set_array_buffer(compute_encoder, biases, 2);
-      set_array_buffer(compute_encoder, x, 3);
-      set_array_buffer(compute_encoder, out, 4);
+      compute_encoder.set_input_array(w, 0);
+      compute_encoder.set_input_array(scales, 1);
+      compute_encoder.set_input_array(biases, 2);
+      compute_encoder.set_input_array(x, 3);
+      compute_encoder.set_output_array(out, 4);
      compute_encoder->setBytes(&D, sizeof(int), 5);
      compute_encoder->setBytes(&O, sizeof(int), 6);

@@ -75,7 +75,7 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
            << bits_;

      // Encode and dispatch kernel
-      auto compute_encoder = d.get_command_encoder(s.index);
+      auto& compute_encoder = d.get_command_encoder(s.index);
      auto kernel = d.get_kernel(kname.str());
      compute_encoder->setComputePipelineState(kernel);

@@ -84,11 +84,11 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
      MTL::Size group_dims = MTL::Size(bd, 2, 1);
      MTL::Size grid_dims = MTL::Size(1, (O + bo - 1) / bo, B);

-      set_array_buffer(compute_encoder, w, 0);
-      set_array_buffer(compute_encoder, scales, 1);
-      set_array_buffer(compute_encoder, biases, 2);
-      set_array_buffer(compute_encoder, x, 3);
-      set_array_buffer(compute_encoder, out, 4);
+      compute_encoder.set_input_array(w, 0);
+      compute_encoder.set_input_array(scales, 1);
+      compute_encoder.set_input_array(biases, 2);
+      compute_encoder.set_input_array(x, 3);
+      compute_encoder.set_output_array(out, 4);
      compute_encoder->setBytes(&D, sizeof(int), 5);
      compute_encoder->setBytes(&O, sizeof(int), 6);

@@ -102,7 +102,7 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
            << bits_ << "_alN_" << std::boolalpha << ((O % 32) == 0);

      // Encode and dispatch kernel
-      auto compute_encoder = d.get_command_encoder(s.index);
+      auto& compute_encoder = d.get_command_encoder(s.index);
      auto kernel = d.get_kernel(kname.str());
      compute_encoder->setComputePipelineState(kernel);

@@ -114,11 +114,11 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
      MTL::Size group_dims = MTL::Size(32, wn, wm);
      MTL::Size grid_dims = MTL::Size((O + bn - 1) / bn, (B + bm - 1) / bm, 1);

-      set_array_buffer(compute_encoder, x, 0);
-      set_array_buffer(compute_encoder, w, 1);
-      set_array_buffer(compute_encoder, scales, 2);
-      set_array_buffer(compute_encoder, biases, 3);
-      set_array_buffer(compute_encoder, out, 4);
+      compute_encoder.set_input_array(x, 0);
+      compute_encoder.set_input_array(w, 1);
+      compute_encoder.set_input_array(scales, 2);
+      compute_encoder.set_input_array(biases, 3);
+      compute_encoder.set_output_array(out, 4);
      compute_encoder->setBytes(&B, sizeof(int), 5);
      compute_encoder->setBytes(&O, sizeof(int), 6);
      compute_encoder->setBytes(&D, sizeof(int), 7);
@@ -133,7 +133,7 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
            << bits_;

      // Encode and dispatch kernel
-      auto compute_encoder = d.get_command_encoder(s.index);
+      auto& compute_encoder = d.get_command_encoder(s.index);
      auto kernel = d.get_kernel(kname.str());
      compute_encoder->setComputePipelineState(kernel);

@@ -142,11 +142,11 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
      MTL::Size group_dims = MTL::Size(bd, bo, 1);
      MTL::Size grid_dims = MTL::Size(1, (O + bo - 1) / bo, B);

-      set_array_buffer(compute_encoder, x, 0);
-      set_array_buffer(compute_encoder, w, 1);
-      set_array_buffer(compute_encoder, scales, 2);
-      set_array_buffer(compute_encoder, biases, 3);
-      set_array_buffer(compute_encoder, out, 4);
+      compute_encoder.set_input_array(x, 0);
+      compute_encoder.set_input_array(w, 1);
+      compute_encoder.set_input_array(scales, 2);
+      compute_encoder.set_input_array(biases, 3);
+      compute_encoder.set_output_array(out, 4);
      compute_encoder->setBytes(&D, sizeof(int), 5);
      compute_encoder->setBytes(&O, sizeof(int), 6);

@@ -160,7 +160,7 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
            << bits_;

      // Encode and dispatch kernel
-      auto compute_encoder = d.get_command_encoder(s.index);
+      auto& compute_encoder = d.get_command_encoder(s.index);
      auto kernel = d.get_kernel(kname.str());
      compute_encoder->setComputePipelineState(kernel);

@@ -179,11 +179,11 @@ void QuantizedMatmul::eval_gpu(const std::vector<array>& inputs, array& out) {
        throw std::runtime_error(msg.str());
      }

-      set_array_buffer(compute_encoder, x, 0);
-      set_array_buffer(compute_encoder, w, 1);
-      set_array_buffer(compute_encoder, scales, 2);
-      set_array_buffer(compute_encoder, biases, 3);
-      set_array_buffer(compute_encoder, out, 4);
+      compute_encoder.set_input_array(x, 0);
+      compute_encoder.set_input_array(w, 1);
+      compute_encoder.set_input_array(scales, 2);
+      compute_encoder.set_input_array(biases, 3);
+      compute_encoder.set_output_array(out, 4);
      compute_encoder->setBytes(&B, sizeof(int), 5);
      compute_encoder->setBytes(&O, sizeof(int), 6);
      compute_encoder->setBytes(&D, sizeof(int), 7);