smoll fix

2025-08-11 11:48:39 +08:00 · 2025-02-26 15:21:57 +01:00 · 2025-02-26 15:21:57 +01:00 · fab2dc2688
commit fab2dc2688
parent ef6ff92add
1 changed files with 2 additions and 1 deletions
--- a/llms/mlx_lm/tuner/grpo_trainer.py
+++ b/llms/mlx_lm/tuner/grpo_trainer.py
@ -279,7 +279,8 @@ def grpo_loss(
        reward_weights = mx.array(reward_weights, dtype=mx.float32)
    else:
        reward_weights = mx.ones(len(reward_funcs), dtype=mx.float32)
-        rewards = (rewards * mx.expand_dims(reward_weights, 0)).sum(axis=1)
+    
+    rewards = (rewards * mx.expand_dims(reward_weights, 0)).sum(axis=1)

    # Reshape rewards and compute advantages
    rewards_reshaped = rewards.reshape(batch_size, group_size)