fix generation cutoff in evaluation

2025-08-16 23:56:44 +08:00 · 2025-02-17 14:39:38 +01:00 · 2025-02-17 14:39:38 +01:00 · 541f0be937
commit 541f0be937
parent 1eea135a20
1 changed files with 5 additions and 2 deletions
--- a/llms/mlx_lm/tuner/grpo_trainer.py
+++ b/llms/mlx_lm/tuner/grpo_trainer.py
@ -403,7 +403,8 @@ def evaluate_grpo(
    beta: float,
    epsilon: float,
    group_size: int,
-    max_seq_length,
+    max_seq_length: int,
+    max_tokens: int,
    temperature: float,
    reward_funcs: Optional[List[RewardFunctions]] = None,
    loss_fn: callable = grpo_loss,
@ -432,7 +433,8 @@ def evaluate_grpo(
            group_size=group_size,
            epsilon=epsilon,
            ref_model=ref_model,
-            temperature=temperature
+            temperature=temperature,
+            max_tokens=max_tokens
        )
        
        all_losses += losses * toks
@ -548,6 +550,7 @@ def train_grpo(
                batch_size=args.batch_size,
                num_batches=args.val_batches,
                max_seq_length=args.max_seq_length,
+                max_tokens=args.max_completion_length,
                beta=args.beta,
                epsilon=args.epsilon,
                temperature=args.temperature,