LoRA: some minor optimizations (#573)

* init training_args in training scope * Add trainable parameters percentage
2025-12-12 07:48:55 +08:00 · 2024-03-14 11:26:30 +08:00
parent d4e1de1d5b
commit 485180ae91
1 changed files with 27 additions and 17 deletions
--- a/llms/mlx_lm/lora.py
+++ b/llms/mlx_lm/lora.py
@@ -194,6 +194,17 @@ def load_dataset(args):
    return train, valid, test
 def print_trainable_parameters(model):
    total_p = sum(v.size for _, v in tree_flatten(model.parameters())) / 10**6
    trainable_p = (
        sum(v.size for _, v in tree_flatten(model.trainable_parameters())) / 10**6
    )
    print(
        f"Trainable parameters: {(trainable_p * 100 / total_p):.3f}% "
        f"({trainable_p:.3f}M/{total_p:.3f}M)"
    )
 def run(args, training_callback: TrainingCallback = None):
    np.random.seed(args.seed)
@@ -205,10 +216,7 @@ def run(args, training_callback: TrainingCallback = None):
    # Convert linear layers to lora layers and unfreeze in the process
    linear_to_lora_layers(model, args.lora_layers, args.lora_parameters)
-    p = sum(v.size for _, v in tree_flatten(model.parameters())) / 10**6
+    print_trainable_parameters(model)
    print(f"Total parameters {p:.3f}M")
    p = sum(v.size for _, v in tree_flatten(model.trainable_parameters())) / 10**6
    print(f"Trainable parameters {p:.3f}M")
    print("Loading datasets")
    train_set, valid_set, test_set = load_dataset(args)
@@ -217,8 +225,11 @@ def run(args, training_callback: TrainingCallback = None):
    if args.resume_adapter_file is not None:
        print(f"Loading pretrained adapters from {args.resume_adapter_file}")
        model.load_weights(args.resume_adapter_file, strict=False)
    if args.train:
        print("Training")
        # init training args
-    trainingArgs = TrainingArgs(
+        training_args = TrainingArgs(
            batch_size=args.batch_size,
            iters=args.iters,
            val_batches=args.val_batches,
@@ -229,15 +240,14 @@ def run(args, training_callback: TrainingCallback = None):
            max_seq_length=args.max_seq_length,
            grad_checkpoint=args.grad_checkpoint,
        )
-    if args.train:
+
        print("Training")
        model.train()
        opt = optim.Adam(learning_rate=args.learning_rate)
        # Train model
        train(
            model=model,
            tokenizer=tokenizer,
-            args=trainingArgs,
+            args=training_args,
            optimizer=opt,
            train_dataset=train_set,
            val_dataset=valid_set,