mirror of
https://github.com/ggml-org/llama.cpp.git
synced 2025-06-26 19:55:04 +00:00
CUDA: app option to compile without FlashAttention (#12025)
This commit is contained in:
12
Makefile
12
Makefile
@ -680,6 +680,10 @@ ifdef GGML_CUDA_CCBIN
|
||||
MK_NVCCFLAGS += -ccbin $(GGML_CUDA_CCBIN)
|
||||
endif # GGML_CUDA_CCBIN
|
||||
|
||||
ifdef GGML_CUDA_NO_FA
|
||||
MK_NVCCFLAGS += -DGGML_CUDA_NO_FA
|
||||
endif # GGML_CUDA_NO_FA
|
||||
|
||||
ifdef GGML_CUDA_FA_ALL_QUANTS
|
||||
MK_NVCCFLAGS += -DGGML_CUDA_FA_ALL_QUANTS
|
||||
endif # GGML_CUDA_FA_ALL_QUANTS
|
||||
@ -800,6 +804,10 @@ ifdef GGML_CUDA_NO_PEER_COPY
|
||||
HIPFLAGS += -DGGML_CUDA_NO_PEER_COPY
|
||||
endif # GGML_CUDA_NO_PEER_COPY
|
||||
|
||||
ifdef GGML_CUDA_NO_FA
|
||||
HIPFLAGS += -DGGML_CUDA_NO_FA
|
||||
endif # GGML_CUDA_NO_FA
|
||||
|
||||
OBJ_GGML_EXT += ggml/src/ggml-cuda/ggml-cuda.o
|
||||
OBJ_GGML_EXT += $(patsubst %.cu,%.o,$(wildcard ggml/src/ggml-cuda/*.cu))
|
||||
OBJ_GGML_EXT += $(OBJ_CUDA_TMPL)
|
||||
@ -876,6 +884,10 @@ ifdef GGML_CUDA_NO_PEER_COPY
|
||||
MUSAFLAGS += -DGGML_CUDA_NO_PEER_COPY
|
||||
endif # GGML_CUDA_NO_PEER_COPY
|
||||
|
||||
ifdef GGML_CUDA_NO_FA
|
||||
MUSAFLAGS += -DGGML_CUDA_NO_FA
|
||||
endif # GGML_CUDA_NO_FA
|
||||
|
||||
ifdef GGML_CUDA_FA_ALL_QUANTS
|
||||
MUSAFLAGS += -DGGML_CUDA_FA_ALL_QUANTS
|
||||
endif # GGML_CUDA_FA_ALL_QUANTS
|
||||
|
Reference in New Issue
Block a user