Update LLM generation docs to use chat template (#973)

* fix docs * add template to model cards as well * revert * version
2025-12-16 02:08:55 +08:00 · 2024-09-07 06:06:15 -07:00
parent 324184d670
commit c3e3411756
3 changed files with 24 additions and 3 deletions
--- a/llms/README.md
+++ b/llms/README.md
@@ -29,7 +29,14 @@ from mlx_lm import load, generate

 model, tokenizer = load("mlx-community/Mistral-7B-Instruct-v0.3-4bit")

-response = generate(model, tokenizer, prompt="hello", verbose=True)
+prompt = "Write a story about Einstein"
+
+messages = [{"role": "user", "content": prompt}]
+prompt = tokenizer.apply_chat_template(
+    messages, tokenize=False, add_generation_prompt=True
+)
+
+response = generate(model, tokenizer, prompt=prompt, verbose=True)
 ```

 To see a description of all the arguments you can do:
@@ -79,6 +86,11 @@ model, tokenizer = load(repo)

 prompt = "Write a story about Einstein"

+messages = [{"role": "user", "content": prompt}]
+prompt = tokenizer.apply_chat_template(
+    messages, tokenize=False, add_generation_prompt=True
+)
+
 for t in stream_generate(model, tokenizer, prompt, max_tokens=512):
    print(t, end="", flush=True)
 print()