llama.cpp/ggml/src/ggml-cuda/unary.cuh

#include "common.cuh"

#define CUDA_NEG_BLOCK_SIZE 256
#define CUDA_STEP_BLOCK_SIZE 256
#define CUDA_GELU_BLOCK_SIZE 256
#define CUDA_SILU_BLOCK_SIZE 256
#define CUDA_TANH_BLOCK_SIZE 256
#define CUDA_RELU_BLOCK_SIZE 256
#define CUDA_SIGMOID_BLOCK_SIZE 256
#define CUDA_HARDSIGMOID_BLOCK_SIZE 256
#define CUDA_EXP_BLOCK_SIZE 256
#define CUDA_HARDSWISH_BLOCK_SIZE 256
#define CUDA_SQR_BLOCK_SIZE 256
#define CUDA_SQRT_BLOCK_SIZE 256
#define CUDA_SIN_BLOCK_SIZE 256
#define CUDA_COS_BLOCK_SIZE 256

void ggml_cuda_op_neg(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_step(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_gelu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_silu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_gelu_quick(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_tanh(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_relu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_sigmoid(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_hardsigmoid(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_exp(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_hardswish(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_leaky_relu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_sqr(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_sqrt(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_sin(ggml_backend_cuda_context & ctx, ggml_tensor * dst);

void ggml_cuda_op_cos(ggml_backend_cuda_context & ctx, ggml_tensor * dst);
cuda : refactor into multiple files (#6269) 2024-03-25 13:50:23 +01:00			`#include "common.cuh"`

tests: add gradient tests for all backends (ggml/932) * tests: add gradient checking to test-backend-ops * remove old comment * reorder includes * adjust SIN/COS parameters * add documentation, use supports_op if possible 2024-09-03 17:21:46 +02:00			`#define CUDA_NEG_BLOCK_SIZE 256`
ggml/examples: add backend support for numerical optimization (ggml/949) * CUDA eval works * stochastic gradient descent op * Adam except decay * CUDA CROSS_ENTROPY_LOSS_BACK * CUDA mnist-fc training works * backend CLI arg * refactor gguf load * remove sched from opt_step_adam * implement l1 regularization (weight decay) * extra call to add optimizer * initialize gradients with ggml_graph_reset * gradient accumulation * increment iter per eval instead of epoch * adjust backend interfaces * fix ggml_graph_reset without backend * fix ggml graph export/import * fixup * rename * revert ggml_opt changes * more general CUDA repeat_back * update documentation, fix CNN * validation split * add clarifying comment * optimize PyTorch training * adjust buffer size, thread count * fix 0.0f validation split * Update examples/mnist/mnist-common.cpp Co-authored-by: Georgi Gerganov <ggerganov@gmail.com> * fix gradient accumulation * tensor flag for accumulators -> tensor hash set * Update include/ggml.h Co-authored-by: slaren <slarengh@gmail.com> * Update tests/test-backend-ops.cpp Co-authored-by: slaren <slarengh@gmail.com> * Update tests/test-backend-ops.cpp Co-authored-by: slaren <slarengh@gmail.com> * fix test prints * Update src/ggml-backend.c Co-authored-by: Georgi Gerganov <ggerganov@gmail.com> * better CUDA support for noncontiguous out_prod * add comment --------- Co-authored-by: Georgi Gerganov <ggerganov@gmail.com> Co-authored-by: slaren <slarengh@gmail.com> 2024-09-20 19:04:44 +03:00			`#define CUDA_STEP_BLOCK_SIZE 256`
cuda : refactor into multiple files (#6269) 2024-03-25 13:50:23 +01:00			`#define CUDA_GELU_BLOCK_SIZE 256`
			`#define CUDA_SILU_BLOCK_SIZE 256`
			`#define CUDA_TANH_BLOCK_SIZE 256`
			`#define CUDA_RELU_BLOCK_SIZE 256`
feat: implemented sigmoid function (ggml/806) * added sigmoid function * implemented metal kernel for sigmoid * implemented cuda kernel for sigmoid * added sigmoid unary op and incremented count 2024-05-01 14:44:26 -07:00			`#define CUDA_SIGMOID_BLOCK_SIZE 256`
cuda : refactor into multiple files (#6269) 2024-03-25 13:50:23 +01:00			`#define CUDA_HARDSIGMOID_BLOCK_SIZE 256`
RWKV v6: RWKV_WKV op CUDA implementation (#9454) * ggml: CUDA unary op EXP Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * ggml: rwkv_wkv op CUDA impl Signed-off-by: Molly Sophia <mollysophia379@gmail.com> --------- Signed-off-by: Molly Sophia <mollysophia379@gmail.com> 2024-09-22 10:29:12 +08:00			`#define CUDA_EXP_BLOCK_SIZE 256`
cuda : refactor into multiple files (#6269) 2024-03-25 13:50:23 +01:00			`#define CUDA_HARDSWISH_BLOCK_SIZE 256`
			`#define CUDA_SQR_BLOCK_SIZE 256`
Add support for sqrt on CUDA (#7953) * cuda sqrt support * enable cuda in pca * fix comments in pca * add test * add sqrt to ggml_backend_cuda_supports_op * fix test * new line * Use F32 sqrtf instead of F64 sqrt Co-authored-by: Johannes Gäßler <johannesg@5d6.de> --------- Co-authored-by: Johannes Gäßler <johannesg@5d6.de> 2024-06-16 15:23:04 -07:00			`#define CUDA_SQRT_BLOCK_SIZE 256`
sync : ggml 2024-08-27 22:01:45 +03:00			`#define CUDA_SIN_BLOCK_SIZE 256`
			`#define CUDA_COS_BLOCK_SIZE 256`
cuda : refactor into multiple files (#6269) 2024-03-25 13:50:23 +01:00
tests: add gradient tests for all backends (ggml/932) * tests: add gradient checking to test-backend-ops * remove old comment * reorder includes * adjust SIN/COS parameters * add documentation, use supports_op if possible 2024-09-03 17:21:46 +02:00			`void ggml_cuda_op_neg(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

ggml/examples: add backend support for numerical optimization (ggml/949) * CUDA eval works * stochastic gradient descent op * Adam except decay * CUDA CROSS_ENTROPY_LOSS_BACK * CUDA mnist-fc training works * backend CLI arg * refactor gguf load * remove sched from opt_step_adam * implement l1 regularization (weight decay) * extra call to add optimizer * initialize gradients with ggml_graph_reset * gradient accumulation * increment iter per eval instead of epoch * adjust backend interfaces * fix ggml_graph_reset without backend * fix ggml graph export/import * fixup * rename * revert ggml_opt changes * more general CUDA repeat_back * update documentation, fix CNN * validation split * add clarifying comment * optimize PyTorch training * adjust buffer size, thread count * fix 0.0f validation split * Update examples/mnist/mnist-common.cpp Co-authored-by: Georgi Gerganov <ggerganov@gmail.com> * fix gradient accumulation * tensor flag for accumulators -> tensor hash set * Update include/ggml.h Co-authored-by: slaren <slarengh@gmail.com> * Update tests/test-backend-ops.cpp Co-authored-by: slaren <slarengh@gmail.com> * Update tests/test-backend-ops.cpp Co-authored-by: slaren <slarengh@gmail.com> * fix test prints * Update src/ggml-backend.c Co-authored-by: Georgi Gerganov <ggerganov@gmail.com> * better CUDA support for noncontiguous out_prod * add comment --------- Co-authored-by: Georgi Gerganov <ggerganov@gmail.com> Co-authored-by: slaren <slarengh@gmail.com> 2024-09-20 19:04:44 +03:00			`void ggml_cuda_op_step(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

cuda : refactor into multiple files (#6269) 2024-03-25 13:50:23 +01:00			`void ggml_cuda_op_gelu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

			`void ggml_cuda_op_silu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

			`void ggml_cuda_op_gelu_quick(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

			`void ggml_cuda_op_tanh(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

			`void ggml_cuda_op_relu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

feat: implemented sigmoid function (ggml/806) * added sigmoid function * implemented metal kernel for sigmoid * implemented cuda kernel for sigmoid * added sigmoid unary op and incremented count 2024-05-01 14:44:26 -07:00			`void ggml_cuda_op_sigmoid(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

cuda : refactor into multiple files (#6269) 2024-03-25 13:50:23 +01:00			`void ggml_cuda_op_hardsigmoid(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

RWKV v6: RWKV_WKV op CUDA implementation (#9454) * ggml: CUDA unary op EXP Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * ggml: rwkv_wkv op CUDA impl Signed-off-by: Molly Sophia <mollysophia379@gmail.com> --------- Signed-off-by: Molly Sophia <mollysophia379@gmail.com> 2024-09-22 10:29:12 +08:00			`void ggml_cuda_op_exp(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

cuda : refactor into multiple files (#6269) 2024-03-25 13:50:23 +01:00			`void ggml_cuda_op_hardswish(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

			`void ggml_cuda_op_leaky_relu(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

			`void ggml_cuda_op_sqr(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`
Add support for sqrt on CUDA (#7953) * cuda sqrt support * enable cuda in pca * fix comments in pca * add test * add sqrt to ggml_backend_cuda_supports_op * fix test * new line * Use F32 sqrtf instead of F64 sqrt Co-authored-by: Johannes Gäßler <johannesg@5d6.de> --------- Co-authored-by: Johannes Gäßler <johannesg@5d6.de> 2024-06-16 15:23:04 -07:00
			`void ggml_cuda_op_sqrt(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`
sync : ggml 2024-08-27 22:01:45 +03:00
			`void ggml_cuda_op_sin(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`

			`void ggml_cuda_op_cos(ggml_backend_cuda_context & ctx, ggml_tensor * dst);`