fix(mlx-lm): handle legacy quant models (#369)

2025-12-16 02:08:55 +08:00 · 2024-01-25 02:44:05 +11:00
parent ab91ac1075
commit 5fc8668a53
1 changed files with 19 additions and 5 deletions
--- a/llms/mlx_lm/utils.py
+++ b/llms/mlx_lm/utils.py
@@ -226,11 +226,25 @@ def load_model(model_path: Path) -> nn.Module:
    model = model_class(model_args)
    if quantization is not None:
-        nn.QuantizedLinear.quantize_module(
+        # for legacy models that don't have lm_head quant due to non-32 dims
-            model,
+        if "lm_head.scales" not in weights.keys():
-            **quantization,
+            vocab_size = config["vocab_size"]
-            linear_class_predicate=linear_class_predicate,
+            extended_linear_class_predicate = (
-        )
+                lambda layer: linear_class_predicate(layer)
                and layer.weight.shape[0] != vocab_size
            )
            nn.QuantizedLinear.quantize_module(
                model,
                **quantization,
                linear_class_predicate=extended_linear_class_predicate,
            )
        # for models that have lm_head quant
        else:
            nn.QuantizedLinear.quantize_module(
                model,
                **quantization,
                linear_class_predicate=linear_class_predicate,
            )
    model.load_weights(list(weights.items()))