Explicit barriers with concurrent dispatch (#977)

2025-12-16 01:49:05 +08:00 · 2024-04-10 21:45:31 -07:00
parent 8580d997ff
commit 12d4507ee3
21 changed files with 326 additions and 267 deletions
--- a/mlx/backend/metal/softmax.cpp
+++ b/mlx/backend/metal/softmax.cpp
@@ -60,7 +60,7 @@ void Softmax::eval_gpu(const std::vector<array>& inputs, array& out) {
    op_name += "precise_";
  }
  op_name += type_to_name(out);
-  auto compute_encoder = d.get_command_encoder(s.index);
+  auto& compute_encoder = d.get_command_encoder(s.index);
  {
    auto kernel = d.get_kernel(op_name);

@@ -81,9 +81,9 @@ void Softmax::eval_gpu(const std::vector<array>& inputs, array& out) {
    }

    compute_encoder->setComputePipelineState(kernel);
-    set_array_buffer(
-        compute_encoder, in.data_shared_ptr() == nullptr ? out : in, 0);
-    set_array_buffer(compute_encoder, out, 1);
+    compute_encoder.set_input_array(
+        in.data_shared_ptr() == nullptr ? out : in, 0);
+    compute_encoder.set_output_array(out, 1);
    compute_encoder->setBytes(&axis_size, sizeof(int), 2);
    compute_encoder->dispatchThreads(grid_dims, group_dims);
  }