llama.cpp

mirror of https://github.com/ggml-org/llama.cpp.git synced 2025-08-13 11:57:43 -04:00

Files

Johannes Gäßler cb5fad4c6c CUDA: refactor and optimize IQ MMVQ (#8215 )

* CUDA: refactor and optimize IQ MMVQ

* uint -> uint32_t

* __dp4a -> ggml_cuda_dp4a

* remove MIN_CC_DP4A checks

* change default

* try CI fix

2024-07-01 20:39:06 +02:00

2024-06-26 18:33:02 +03:00

2024-06-26 18:33:02 +03:00

2024-07-01 20:39:06 +02:00

CMakeLists.txt

2024-06-26 21:34:14 +02:00

ggml_vk_generate_shaders.py

2024-06-26 18:33:02 +03:00