put prompt processing in same stream

2025-08-29 01:46:09 +08:00 · 2024-11-25 08:06:12 -08:00 · 2024-11-25 08:06:12 -08:00 · 3586c876aa
commit 3586c876aa
parent adaab81029
1 changed files with 7 additions and 6 deletions
--- a/llms/mlx_lm/utils.py
+++ b/llms/mlx_lm/utils.py
@ -274,13 +274,14 @@ def generate_step(
            y = sampler(logprobs)
            return y, logprobs.squeeze(0)

-    while y.size > prefill_step_size:
-        model(y[:prefill_step_size][None], cache=prompt_cache)
-        mx.eval([c.state for c in prompt_cache])
-        y = y[prefill_step_size:]
-        mx.metal.clear_cache()
+    with mx.stream(generation_stream):
+        while y.size > prefill_step_size:
+            model(y[:prefill_step_size][None], cache=prompt_cache)
+            mx.eval([c.state for c in prompt_cache])
+            y = y[prefill_step_size:]
+            mx.metal.clear_cache()

-    y, logprobs = _step(y)
+        y, logprobs = _step(y)

    mx.async_eval(y, logprobs)
    n = 0