Length masking for batch inputs (#1173)

* length masking * add mask to mlx_lm model interface * remove lengths * fix test: * comment + fix
2025-12-16 02:08:55 +08:00 · 2024-12-18 19:43:52 -08:00
parent db109184b7
commit d4ef909d4a
34 changed files with 191 additions and 72 deletions
--- a/llms/mlx_lm/models/olmo.py
+++ b/llms/mlx_lm/models/olmo.py
@@ -124,11 +124,13 @@ class Transformer(nn.Module):
    def __call__(
        self,
        inputs: mx.array,
+        mask: mx.array = None,
        cache=None,
    ):
        h = self.wte(inputs)

-        mask = create_attention_mask(h, cache)
+        if mask is None:
+            mask = create_attention_mask(h, cache)

        if cache is None:
            cache = [None] * len(self.blocks)
@@ -152,9 +154,10 @@ class OlmoModel(nn.Module):
    def __call__(
        self,
        inputs: mx.array,
+        mask: mx.array = None,
        cache=None,
    ):
-        return self.transformer(inputs, cache)
+        return self.transformer(inputs, mask, cache)


 class Model(nn.Module):
@@ -167,9 +170,10 @@ class Model(nn.Module):
    def __call__(
        self,
        inputs: mx.array,
+        mask: mx.array = None,
        cache=None,
    ):
-        return self.model(inputs, cache)
+        return self.model(inputs, mask, cache)

    @property
    def layers(self):