fixes

2025-12-16 02:08:55 +08:00 · 2025-02-03 19:43:49 +01:00
parent 05d921b788
commit 40bca770ae
1 changed files with 5 additions and 5 deletions
--- a/llms/mlx_lm/tuner/grpo_trainer.py
+++ b/llms/mlx_lm/tuner/grpo_trainer.py
@@ -271,9 +271,9 @@ def grpo_loss(
    rewards = mx.zeros((len(all_completions),))
    for reward_func in reward_funcs:
        func_rewards = mx.array(reward_func(
-            prompts=prompt_text,
+            prompts=expanded_prompts,
            completions=all_completion_texts,
-            answer=answer_text
+            answer=expanded_answers
        ))
        rewards += func_rewards

@@ -310,9 +310,9 @@ def grpo_loss(
    reward_metrics = {}
    for i, reward_func in enumerate(reward_funcs):
        func_rewards = mx.array(reward_func(
-            prompts=prompt_text,
+            prompts=expanded_prompts,
            completions=all_completion_texts,
-            answer=answer_text
+            answer=expanded_answers
        ))
        reward_metrics[f'reward_func_{i}_mean'] = mx.mean(func_rewards)
        reward_metrics[f'reward_func_{i}_std'] = mx.std(func_rewards)