Merge branch 'ml-explore:main' into adding-support-for-mamba

2025-09-01 21:01:32 +08:00 · 2024-09-04 20:23:19 +02:00
parent d1a0ca0c30 bd29aec299
commit 95e1690fc3
8 changed files with 33 additions and 8 deletions
--- a/llms/mlx_lm/init.py
+++ b/llms/mlx_lm/init.py
@@ -1,4 +1,4 @@
 # Copyright © 2023-2024 Apple Inc.

+from ._version import __version__
 from .utils import convert, generate, load, stream_generate
-from .version import __version__
--- a/llms/mlx_lm/_version.py
+++ b/llms/mlx_lm/_version.py
--- a/llms/mlx_lm/generate.py
+++ b/llms/mlx_lm/generate.py
@@ -2,6 +2,7 @@

 import argparse
 import json
+import sys

 import mlx.core as mx

@@ -14,6 +15,10 @@ DEFAULT_TOP_P = 1.0
 DEFAULT_SEED = 0


+def str2bool(string):
+    return string.lower() not in ["false", "f"]
+
+
 def setup_arg_parser():
    """Set up and return the argument parser."""
    parser = argparse.ArgumentParser(description="LLM inference script")
@@ -39,7 +44,9 @@ def setup_arg_parser():
        help="End of sequence token for tokenizer",
    )
    parser.add_argument(
-        "--prompt", default=DEFAULT_PROMPT, help="Message to be processed by the model"
+        "--prompt",
+        default=DEFAULT_PROMPT,
+        help="Message to be processed by the model ('-' reads from stdin)",
    )
    parser.add_argument(
        "--max-tokens",
@@ -65,6 +72,12 @@ def setup_arg_parser():
        action="store_true",
        help="Use the default chat template",
    )
+    parser.add_argument(
+        "--verbose",
+        type=str2bool,
+        default=True,
+        help="Log verbose output when 'True' or 'T' or only print the response when 'False' or 'F'",
+    )
    parser.add_argument(
        "--colorize",
        action="store_true",
@@ -178,7 +191,12 @@ def main():
        hasattr(tokenizer, "apply_chat_template")
        and tokenizer.chat_template is not None
    ):
-        messages = [{"role": "user", "content": args.prompt}]
+        messages = [
+            {
+                "role": "user",
+                "content": sys.stdin.read() if args.prompt == "-" else args.prompt,
+            }
+        ]
        prompt = tokenizer.apply_chat_template(
            messages, tokenize=False, add_generation_prompt=True
        )
@@ -195,6 +213,8 @@ def main():
    else:
        prompt = args.prompt

+    if args.colorize and not args.verbose:
+        raise ValueError("Cannot use --colorize with --verbose=False")
    formatter = colorprint_by_t0 if args.colorize else None

    # Determine the max kv size from the kv cache or passed arguments
@@ -203,18 +223,20 @@ def main():
        max_kv_size = metadata["max_kv_size"]
        max_kv_size = int(max_kv_size) if max_kv_size.isdigit() else None

-    generate(
+    response = generate(
        model,
        tokenizer,
        prompt,
        args.max_tokens,
-        verbose=True,
+        verbose=args.verbose,
        formatter=formatter,
        temp=args.temp,
        top_p=args.top_p,
        max_kv_size=max_kv_size,
        cache_history=cache_history,
    )
+    if not args.verbose:
+        print(response)


 if __name__ == "__main__":
--- a/llms/mlx_lm/utils.py
+++ b/llms/mlx_lm/utils.py
@@ -560,6 +560,7 @@ def upload_to_hub(path: str, upload_repo: str, hf_path: str):

    card = ModelCard.load(hf_path)
    card.data.tags = ["mlx"] if card.data.tags is None else card.data.tags + ["mlx"]
+    card.data.base_model = hf_path
    card.text = dedent(
        f"""
        # {upload_repo}
@@ -666,6 +667,8 @@ def quantize_model(
    quantized_config = copy.deepcopy(config)
    nn.quantize(model, q_group_size, q_bits)
    quantized_config["quantization"] = {"group_size": q_group_size, "bits": q_bits}
+    # support hf model tree #957
+    quantized_config["quantization_config"] = quantized_config["quantization"]
    quantized_weights = dict(tree_flatten(model.parameters()))

    return quantized_weights, quantized_config
--- a/llms/setup.py
+++ b/llms/setup.py
@@ -10,7 +10,7 @@ with open(package_dir / "requirements.txt") as fid:
    requirements = [l.strip() for l in fid.readlines()]

 sys.path.append(str(package_dir))
-from version import __version__
+from _version import __version__

 setup(
    name="mlx-lm",
--- a/whisper/mlx_whisper/init.py
+++ b/whisper/mlx_whisper/init.py
@@ -1,5 +1,5 @@
 # Copyright © 2023-2024 Apple Inc.

 from . import audio, decoding, load_models
+from ._version import __version__
 from .transcribe import transcribe
-from .version import __version__
--- a/whisper/mlx_whisper/_version.py
+++ b/whisper/mlx_whisper/_version.py
--- a/whisper/setup.py
+++ b/whisper/setup.py
@@ -12,7 +12,7 @@ with open(package_dir / "requirements.txt") as fid:

 sys.path.append(str(package_dir))

-from version import __version__
+from _version import __version__

 setup(
    name="mlx-whisper",