mlx-examples

mirror of https://github.com/ml-explore/mlx-examples.git synced 2025-12-16 02:08:55 +08:00

Files

Prince Canuma dfa4dd6c93 Add support for cohere2 (#1157 )

* add support for cohere2

* revert to act_fn to silu

* fix tests and sliding window attention

* add tests

* add to tuner

* fix sliding window

* add coauthor :)

Co-authored-by: n8programs <43304488+N8python@users.noreply.github.com>

* Add rotating kvcache to save space

* some nits

* style

* nits

---------

Co-authored-by: n8programs <43304488+N8python@users.noreply.github.com>
Co-authored-by: N8 <n8@n8programs.com>
Co-authored-by: Awni Hannun <awni@apple.com>

2024-12-16 08:01:03 -08:00

__init__.py

Mlx llm package (#301 )

2024-01-12 10:25:56 -08:00

base.py

Fix rotating kv cache size (#1093 )

2024-11-05 10:24:24 -08:00

cache.py

Fix rotating kv cache size (#1093 )

2024-11-05 10:24:24 -08:00

cohere2.py

Add support for cohere2 (#1157 )

2024-12-16 08:01:03 -08:00

cohere.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

dbrx.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

deepseek_v2.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

deepseek.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

exaone.py

Adds EXAONE architecture. (#1145 )

2024-12-09 07:58:25 -08:00

gemma2.py

override dtype with quant (#1062 )

2024-10-22 09:56:45 -07:00

gemma.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

gpt2.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

gpt_bigcode.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

gpt_neox.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

hunyuan.py

Tencent HunYuan MOE model (#1100 )

2024-11-23 11:06:26 -08:00

internlm2.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

llama.py

Adds EXAONE architecture. (#1145 )

2024-12-09 07:58:25 -08:00

mamba.py

Add support for falcon-mamba (#1074 )

2024-11-04 12:23:30 -08:00

minicpm.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

mixtral.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

nemotron.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

olmo2.py

Adds EXAONE architecture. (#1145 )

2024-12-09 07:58:25 -08:00

olmo.py

More cache improvements (#1015 )

2024-10-07 20:45:51 -07:00

openelm.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

phi3.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

phi3small.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

phi.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

phimoe.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

phixtral.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

plamo.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

qwen2_moe.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

qwen2.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

qwen.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

recurrent_gemma.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

rope_utils.py

Adds EXAONE architecture. (#1145 )

2024-12-09 07:58:25 -08:00

stablelm.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

starcoder2.py

Quantized KV Cache (#1075 )

2024-10-31 16:59:52 -07:00

su_rope.py

Add Phi-3.5-MoE (#946 )

2024-08-24 06:52:33 -07:00

switch_layers.py

Handle longer prompt/generation (#931 )

2024-08-16 15:28:39 -07:00