Adapters loading (#902)

* Added functionality to load in adapters through post-requests so you do not need to restart the server * ran pre-commit * nits * fix test --------- Co-authored-by: Awni Hannun <awni@apple.com>
2025-10-23 22:18:06 +08:00 · 2024-08-01 16:18:18 -07:00
parent 85dc76f6e0
commit 8fa12b0058
3 changed files with 24 additions and 7 deletions
--- a/llms/tests/test_server.py
+++ b/llms/tests/test_server.py
@@ -12,7 +12,7 @@ class DummyModelProvider:
        HF_MODEL_PATH = "mlx-community/Qwen1.5-0.5B-Chat-4bit"
        self.model, self.tokenizer = load(HF_MODEL_PATH)

-    def load(self, model):
+    def load(self, model, adapter=None):
        assert model in ["default_model", "chat_model"]
        return self.model, self.tokenizer