small fix

2025-12-16 02:08:55 +08:00 · 2025-02-11 17:48:42 +01:00
parent 35ecc17042
commit 978deab589
1 changed files with 2 additions and 2 deletions
--- a/llms/mlx_lm/tuner/grpo_trainer.py
+++ b/llms/mlx_lm/tuner/grpo_trainer.py
@@ -117,7 +117,7 @@ def generate_grpo(model, prompt, max_tokens, tokenizer, temperature):
    end_sequence = tokenizer.encode("</answer>")
    end_sequence_length = len(end_sequence)
-    output = mx.zeros((prompt.shape[1] + max_tokens,))
+    output = mx.zeros((prompt.shape[1] + max_tokens,), dtype=mx.int32)
    output[:prompt.shape[1]] = prompt[0]
    current_length = prompt.shape[1]
@@ -126,7 +126,7 @@ def generate_grpo(model, prompt, max_tokens, tokenizer, temperature):
            if temperature > 0:
                logits /= temperature
            logprobs = logits - mx.logsumexp(logits, keepdims=True)
-            return mx.random.categorical(logprobs[None, :])[0]
+            return mx.random.categorical(logprobs[None, :]).astype(mx.int32)[0]
        for _ in range(max_tokens):
            current_input = output[:current_length][None, :]