Fix PLaMo model to support Grouped Query Attention (#1037)

2025-12-16 02:08:55 +08:00 · 2024-10-13 07:26:50 +09:00
parent d8611dd69f
commit 7612c646f3
1 changed files with 3 additions and 0 deletions
--- a/llms/mlx_lm/models/plamo.py
+++ b/llms/mlx_lm/models/plamo.py
@@ -89,6 +89,9 @@ class Attention(nn.Module):
            queries = self.rotary_emb(queries)
            keys = self.rotary_emb(keys)

+        keys = mx.tile(keys, [1, self.config.n_shared_head, 1, 1])
+        values = mx.tile(values, [1, self.config.n_shared_head, 1, 1])
+
        output = mx.fast.scaled_dot_product_attention(
            queries,
            keys,