update: pre-commit format hook

2025-12-16 02:08:55 +08:00 · 2025-03-12 23:10:58 +09:00
parent 346d9641d7
commit f5cd999774
1 changed files with 59 additions and 16 deletions
--- a/llms/mlx_lm/bench.py
+++ b/llms/mlx_lm/bench.py
@@ -1,3 +1,8 @@
+# @Author  : Dawei Feng
+# @Time    : 2025/3/12 22:00
+# @File    : bench.py
+# @Email   : darkv.feng@outlook.com
+
 """
 MLX-LM Benchmark Tool

@@ -14,19 +19,21 @@ It supports multiple input values for model, prompt tokens, and generation token
 """

 import argparse
+import contextlib
+import csv
+import io
 import json
 import logging
 import random
 import re
-import io
-import contextlib
-import csv
 import time
 from typing import Any, Dict, List, Optional, Union

-from .utils import load, generate
+from .utils import generate, load

-logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
+logging.basicConfig(
+    level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s"
+)


 class CommaSeparatedIntegers(argparse.Action):
@@ -88,7 +95,11 @@ def parse_args() -> argparse.Namespace:
        help="Outout Sequence Length (OSL). Number of tokens to generate. Accepts multiple comma-separated values.",
    )
    parser.add_argument(
-        "-r", "--repetitions", type=int, default=5, help="Number of benchmark repetitions to average results over."
+        "-r",
+        "--repetitions",
+        type=int,
+        default=5,
+        help="Number of benchmark repetitions to average results over.",
    )
    parser.add_argument(
        "-o",
@@ -168,7 +179,9 @@ def generate_synthetic_tokens(tokenizer: Any, seq_length: int) -> List[int]:

    # Prepend BOS token if available; otherwise, start with an empty list.
    tokens = [tokenizer.bos_token_id] if tokenizer.bos_token_id is not None else []
-    tokens += [random.randint(0, vocab_size - 1) for _ in range(seq_length - len(tokens))]
+    tokens += [
+        random.randint(0, vocab_size - 1) for _ in range(seq_length - len(tokens))
+    ]

    return tokens

@@ -199,13 +212,17 @@ def parse_metrics(log_output: str) -> Dict[str, Optional[float]]:
    }

    # Extract prompt tokens and tokens-per-second
-    prompt_match = re.search(r"Prompt:\s*(\d+)\s*tokens,\s*([\d.]+)\s*tokens-per-sec", log_output)
+    prompt_match = re.search(
+        r"Prompt:\s*(\d+)\s*tokens,\s*([\d.]+)\s*tokens-per-sec", log_output
+    )
    if prompt_match:
        metrics["prompt_tokens"] = int(prompt_match.group(1))
        metrics["prompt_tps"] = float(prompt_match.group(2))

    # Extract generation tokens and tokens-per-second
-    generation_match = re.search(r"Generation:\s*(\d+)\s*tokens,\s*([\d.]+)\s*tokens-per-sec", log_output)
+    generation_match = re.search(
+        r"Generation:\s*(\d+)\s*tokens,\s*([\d.]+)\s*tokens-per-sec", log_output
+    )
    if generation_match:
        metrics["response_tokens"] = int(generation_match.group(1))
        metrics["response_tps"] = float(generation_match.group(2))
@@ -248,12 +265,23 @@ def benchmark_performance(
    input_tokens = generate_synthetic_tokens(tokenizer, seq_length)
    output_buffer = io.StringIO()
    with contextlib.redirect_stdout(output_buffer):
-        generate(model, tokenizer, input_tokens, max_tokens=max_tokens, verbose=True, **generate_kwargs)
+        generate(
+            model,
+            tokenizer,
+            input_tokens,
+            max_tokens=max_tokens,
+            verbose=True,
+            **generate_kwargs,
+        )
    captured_output = output_buffer.getvalue()
    return parse_metrics(captured_output)


-def save_results(output_file, results: Union[Dict[str, Any], List[Dict[str, Any]]], output_format: str) -> None:
+def save_results(
+    output_file,
+    results: Union[Dict[str, Any], List[Dict[str, Any]]],
+    output_format: str,
+) -> None:
    """
    Save the benchmark results in the specified output format.

@@ -346,18 +374,31 @@ def run_benchmarks(args: argparse.Namespace) -> List[Dict[str, Any]]:
        for n_prompt in args.n_prompt:
            for n_gen in args.n_gen:
                # Warmup run
-                _ = benchmark_performance(model, tokenizer, n_prompt, n_gen, **args.gen_args)
+                _ = benchmark_performance(
+                    model, tokenizer, n_prompt, n_gen, **args.gen_args
+                )
                # Benchmark iterations
                metrics_list = []
                for i in range(args.repetitions):
-                    metrics = benchmark_performance(model, tokenizer, n_prompt, n_gen, **args.gen_args)
+                    metrics = benchmark_performance(
+                        model, tokenizer, n_prompt, n_gen, **args.gen_args
+                    )
                    metrics_list.append(metrics)
                # Compute average metrics
                avg_metrics = {}
-                keys = ["prompt_tokens", "prompt_tps", "response_tokens", "response_tps", "exec_time", "ram_usage"]
+                keys = [
+                    "prompt_tokens",
+                    "prompt_tps",
+                    "response_tokens",
+                    "response_tps",
+                    "exec_time",
+                    "ram_usage",
+                ]
                for key in keys:
                    valid_values = [m[key] for m in metrics_list if m[key] is not None]
-                    avg_metrics[key] = sum(valid_values) / len(valid_values) if valid_values else None
+                    avg_metrics[key] = (
+                        sum(valid_values) / len(valid_values) if valid_values else None
+                    )
                result = {
                    "Model": model_path,
                    "Model Load Time (s)": round(model_load_time, 3),
@@ -367,7 +408,9 @@ def run_benchmarks(args: argparse.Namespace) -> List[Dict[str, Any]]:
                    "Response TPS": round(avg_metrics["response_tps"], 3),
                    "Execution Time (s)": round(avg_metrics["exec_time"], 3),
                    "Memory Usage (GB)": (
-                        round(avg_metrics["ram_usage"], 2) if avg_metrics["ram_usage"] is not None else None
+                        round(avg_metrics["ram_usage"], 2)
+                        if avg_metrics["ram_usage"] is not None
+                        else None
                    ),
                }
                # Print the result row immediately after each test completes