llama: add support for QRWKV6 model architecture (#11001)

mirror of https://github.com/ggml-org/llama.cpp.git synced 2025-08-13 03:47:46 -04:00

llama: add support for QRWKV6 model architecture (#11001)

* WIP: Add support for RWKV6Qwen2

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* RWKV: Some graph simplification

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* Add support for RWKV6Qwen2 with cpu and cuda GLA

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* RWKV6[QWEN2]: Concat lerp weights together to reduce cpu overhead

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* Fix some typos

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* code format changes

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* Fix wkv test & add gla test

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* Fix cuda warning

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* Update README.md

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* Update ggml/src/ggml-cuda/gla.cu

Co-authored-by: Georgi Gerganov <ggerganov@gmail.com>

* Fix fused lerp weights loading with RWKV6

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

* better sanity check skipping for QRWKV6 in llama-quant

thanks @compilade

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>
Co-authored-by: compilade <git@compilade.net>

---------

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>
Co-authored-by: Georgi Gerganov <ggerganov@gmail.com>
Co-authored-by: compilade <git@compilade.net>

This commit is contained in:

Molly Sophia

2025-01-10 09:58:08 +08:00

committed by

GitHub

parent c6860cc734

commit ee7136c6d1

23 changed files with 862 additions and 124 deletions

									
										2

src/llama-hparams.cpp
									
												View File
												
				@@ -52,7 +52,7 @@ uint32_t llama_hparams::n_embd_v_gqa(uint32_t il) const {

				uint32_t llama_hparams::n_embd_k_s() const {

				    if (wkv_head_size != 0) {

				        // for RWKV models

				        return 2 * n_embd;

				        return token_shift_count * n_embd;

				    }

				    // TODO: maybe support other convolution strides than 1

llama: add support for QRWKV6 model architecture (#11001)

2 src/llama-hparams.cpp Unescape Escape View File

2

src/llama-hparams.cpp

View File