llama.cpp

mirror of https://github.com/ggml-org/llama.cpp.git synced 2025-07-26 19:23:37 -04:00

Author	SHA1	Message	Date
Johannes Gäßler	cd93a28cb1	CUDA: fix FA out-of-bounds reads (#7479 )	2024-05-23 00:31:20 +02:00
Johannes Gäßler	38c03478a3	CUDA: fix FA out-of-bounds writes (#7465 )	2024-05-22 17:58:25 +02:00
Johannes Gäßler	133d99c599	CUDA: deduplicate FlashAttention code (#7352 )	2024-05-18 12:36:25 +02:00
Johannes Gäßler	0fc1e820a9	CUDA: faster large batch FA without tensor cores (#7314 )	2024-05-17 18:54:52 +02:00