mirror of https://github.com/ggml-org/llama.cpp.git synced 2025-08-17 21:51:27 -04:00

Files

Aaron Teo ff27f80a74 ggml: initial IBM zDNN backend (#14975 )

* ggml-zdnn: inital backend impl

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

ggml-zdnn: temp change z17 to arch15

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

ggml-zdnn: fix build bugs

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: tensor->extra logging check

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

ggml-zdnn: add layout name mapping, ztensor information

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

ggml-zdnn: separate logging into its own line

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

ggml-zdnn: add shape comparison

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

ggml-zdnn: add ggml_tensor shape log

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

ggml-zdnn: fix incorrect shape logging

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add output buffer check

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: run compute and store into tensor->extra

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add set_tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add more loggers

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: update set_tensor logging to check only for matmul

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: last working matmul version

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add comments to prevent accidentally deleting lines

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: support op out_prod

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: update op out_prod to use tensor->extra

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: rewrite the backend implementation

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: bugfix new impl

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix compiler warnings and bugfixes

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: test ztensor finding in init_tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: implement at least 1 op to test

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: assign tensor->extra to buffer

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add check for view tensors to prevent init_tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: rework init_tensor to create new buffers

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: switch to std vector instead of array

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: switch buffers back and set to arbitrary number

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: impl init_tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: update supports_op matmul matrix

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix incorrect ztensor shape, reduce memory padding

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: code clean up

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: impl matmul

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix compiler error missing type

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix missing data transform call

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add bias init_tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: tighten memory usage, change string allocation

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add bias ztensor and data free

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add bias data transform

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add more debug info for extra buffer transform

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add logger to check if mat mul ops go through set_tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: activate bias transform in matmul

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: move weights transform into mulmat

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add more safeguards in matmul

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix sequencing of transforms

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: bugfix transform ztensor vs origtensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: figure out why sigtrap is happening

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix sigsegv

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: move everything back to local declaration

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: move bias data to local also

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: bring back working matmul

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: rewrite into mre

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix missing vector import

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix missing vector import in header

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: attempt to fix sigsegv

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix missing load tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix invalid ztensor buffer release

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add logging to debug free buffer

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: remove free_buffer debug info

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add parmblkformat detections

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add nnpa installed detection

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add zdnn_init call for static libs

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add init_tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: attempt at fixing invalid buffer

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: switch to using deque to fix pointer deref problem

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add weights logging to check

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: attempt to use unique ptr

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add tensor to pre_tfm_desc logging

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add inputs logging

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: disable op_none initialisation for testing

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix missing return from init_tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: load ztensors in cgraph exec

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: work on moving output ztensor as well

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: disable logging and breakpoints for full test

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: attempt at manually changing the layout

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: attempt at using default nwhc format instead

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: disable global load ztensor for now

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix errorenous output load tensor

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: add guards to prevent loading ztensor if transformed

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: code cleanup

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: bring load ztensor back to init routine

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: code clean up

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix ztensor deallocation abort

stabilise ggml <-> zdnn api

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: clean up matmul selection

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: clean up project structure

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: update documentation, prepare for upstream

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* chore: add codeowners

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: disable batched matmul

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: attempt at fixing tensor views during matmul

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: deny all view tensors directly

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix pr comments

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* docs: update ops docs for zdnn

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: redo test-backend-ops for ops.md

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* ggml-zdnn: fix typo in build-s390x.md

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* codeowners: remove taronaeo for now

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

* Revert "codeowners: remove taronaeo for now"

This reverts commit 411ea4ed78.

* ggml-zdnn: remove unused ggml_zdnn macro

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

---------

Signed-off-by: Aaron Teo <aaron.teo1@ibm.com>

2025-08-15 21:11:22 +08:00

8.5 KiB

Raw Blame History

GGML Operations

List of GGML operations and backend support status.

How to add a backend to this table:

Run test-backend-ops support --output csv with your backend name and redirect output to a csv file in docs/ops/ (e.g., docs/ops/CUDA.csv)
Regenerate /docs/ops.md via ./scripts/create_ops_docs.py

Legend:

✅ Fully supported by this backend
🟡 Partially supported by this backend
❌ Not supported by this backend

Operation	BLAS	CANN	CPU	CUDA	Metal	OpenCL	SYCL	Vulkan	zDNN
ABS	❌	✅	✅	🟡	🟡	❌	🟡	❌	❌
ACC	❌	✅	✅	✅	✅	❌	✅	✅	❌
ADD	❌	✅	✅	✅	🟡	🟡	✅	✅	❌
ADD1	❌	✅	✅	✅	❌	❌	✅	❌	❌
ARANGE	❌	✅	✅	✅	✅	❌	❌	❌	❌
ARGMAX	❌	✅	✅	✅	✅	❌	✅	✅	❌
ARGSORT	❌	✅	✅	✅	✅	✅	✅	✅	❌
CLAMP	❌	✅	✅	✅	🟡	🟡	✅	🟡	❌
CONCAT	❌	✅	✅	🟡	✅	🟡	🟡	✅	❌
CONT	❌	🟡	✅	✅	✅	🟡	🟡	🟡	❌
CONV_2D	❌	❌	✅	❌	❌	✅	❌	✅	❌
CONV_2D_DW	❌	❌	✅	✅	❌	❌	❌	✅	❌
CONV_TRANSPOSE_1D	❌	✅	✅	✅	✅	❌	✅	✅	❌
CONV_TRANSPOSE_2D	❌	❌	✅	✅	❌	❌	❌	❌	❌
COS	❌	✅	✅	✅	🟡	❌	✅	🟡	❌
COUNT_EQUAL	❌	✅	✅	✅	❌	❌	❌	✅	❌
CPY	❌	🟡	🟡	🟡	🟡	🟡	🟡	🟡	❌
CROSS_ENTROPY_LOSS	❌	❌	✅	✅	❌	❌	❌	❌	❌
CROSS_ENTROPY_LOSS_BACK	❌	❌	✅	✅	❌	❌	❌	❌	❌
DIAG_MASK_INF	❌	✅	✅	✅	🟡	🟡	✅	✅	❌
DIV	❌	✅	✅	✅	🟡	🟡	✅	✅	❌
DUP	❌	✅	✅	🟡	🟡	🟡	✅	🟡	❌
ELU	❌	✅	✅	🟡	🟡	❌	🟡	❌	❌
EXP	❌	✅	✅	🟡	🟡	❌	🟡	❌	❌
FLASH_ATTN_EXT	❌	🟡	✅	🟡	🟡	❌	❌	🟡	❌
GATED_LINEAR_ATTN	❌	❌	✅	✅	❌	❌	✅	❌	❌
GEGLU	❌	✅	✅	✅	🟡	✅	✅	🟡	❌
GEGLU_ERF	❌	✅	✅	✅	🟡	✅	✅	🟡	❌
GEGLU_QUICK	❌	✅	✅	✅	🟡	✅	✅	🟡	❌
GELU	❌	✅	✅	🟡	🟡	🟡	🟡	🟡	❌
GELU_ERF	❌	✅	✅	🟡	🟡	🟡	🟡	🟡	❌
GELU_QUICK	❌	✅	✅	🟡	🟡	🟡	🟡	🟡	❌
GET_ROWS	❌	🟡	✅	🟡	✅	🟡	🟡	🟡	❌
GET_ROWS_BACK	❌	❌	🟡	🟡	❌	❌	❌	❌	❌
GROUP_NORM	❌	✅	✅	✅	✅	✅	✅	✅	❌
HARDSIGMOID	❌	✅	✅	🟡	🟡	❌	🟡	❌	❌
HARDSWISH	❌	✅	✅	🟡	🟡	❌	🟡	❌	❌
IM2COL	❌	✅	✅	✅	🟡	✅	✅	✅	❌
L2_NORM	❌	❌	✅	✅	✅	❌	✅	✅	❌
LEAKY_RELU	❌	✅	✅	✅	✅	❌	✅	✅	❌
LOG	❌	✅	✅	✅	❌	❌	✅	❌	❌
MEAN	❌	✅	✅	✅	✅	❌	❌	❌	❌
MUL	❌	✅	✅	✅	🟡	🟡	✅	✅	❌
MUL_MAT	🟡	🟡	🟡	🟡	🟡	🟡	🟡	🟡	🟡
MUL_MAT_ID	❌	🟡	✅	✅	✅	🟡	🟡	✅	❌
NEG	❌	✅	✅	🟡	🟡	❌	🟡	❌	❌
NORM	❌	✅	✅	✅	🟡	✅	✅	🟡	❌
OPT_STEP_ADAMW	❌	❌	✅	✅	❌	❌	❌	✅	❌
OUT_PROD	🟡	❌	🟡	🟡	❌	❌	🟡	❌	❌
PAD	❌	✅	✅	✅	✅	✅	✅	✅	❌
PAD_REFLECT_1D	❌	✅	✅	❌	✅	❌	❌	❌	❌
POOL_2D	❌	🟡	✅	✅	✅	❌	✅	✅	❌
REGLU	❌	✅	✅	✅	🟡	✅	✅	🟡	❌
RELU	❌	✅	✅	🟡	🟡	🟡	🟡	🟡	❌
REPEAT	❌	✅	✅	🟡	✅	🟡	✅	🟡	❌
REPEAT_BACK	❌	❌	✅	✅	❌	❌	❌	✅	❌
RMS_NORM	❌	✅	✅	✅	🟡	✅	✅	✅	❌
RMS_NORM_BACK	❌	❌	✅	✅	❌	❌	❌	✅	❌
RMS_NORM_MUL_ADD	❌	✅	✅	✅	✅	✅	✅	✅	❌
ROLL	❌	❌	✅	❌	❌	❌	❌	✅	❌
ROPE	❌	🟡	✅	✅	✅	✅	✅	✅	❌
ROPE_BACK	❌	❌	✅	✅	❌	❌	❌	✅	❌
RWKV_WKV6	❌	❌	✅	✅	✅	❌	✅	✅	❌
RWKV_WKV7	❌	❌	✅	✅	✅	❌	✅	✅	❌
SCALE	❌	🟡	✅	✅	✅	✅	✅	✅	❌
SET	❌	❌	✅	❌	✅	❌	❌	❌	❌
SET_ROWS	❌	❌	🟡	🟡	🟡	🟡	🟡	🟡	❌
SGN	❌	✅	✅	🟡	🟡	❌	🟡	❌	❌
SIGMOID	❌	✅	✅	🟡	🟡	🟡	🟡	🟡	❌
SILU	❌	✅	✅	🟡	🟡	🟡	🟡	🟡	❌
SILU_BACK	❌	❌	✅	✅	❌	❌	❌	✅	❌
SIN	❌	✅	✅	✅	🟡	❌	✅	🟡	❌
SOFTCAP	❌	❌	❌	❌	❌	❌	❌	❌	❌
SOFT_MAX	❌	🟡	✅	✅	✅	✅	🟡	✅	❌
SOFT_MAX_BACK	❌	❌	🟡	🟡	❌	❌	❌	✅	❌
SQR	❌	✅	✅	✅	🟡	❌	✅	🟡	❌
SQRT	❌	✅	✅	✅	🟡	❌	✅	❌	❌
SSM_CONV	❌	❌	✅	✅	✅	❌	❌	❌	❌
SSM_SCAN	❌	❌	✅	✅	✅	❌	❌	❌	❌
STEP	❌	✅	✅	🟡	🟡	❌	🟡	❌	❌
SUB	❌	✅	✅	✅	🟡	🟡	✅	✅	❌
SUM	❌	✅	✅	✅	❌	❌	✅	✅	❌
SUM_ROWS	❌	✅	✅	✅	✅	✅	✅	✅	❌
SWIGLU	❌	✅	✅	✅	🟡	✅	✅	🟡	❌
TANH	❌	✅	✅	🟡	🟡	✅	🟡	🟡	❌
TIMESTEP_EMBEDDING	❌	✅	✅	✅	✅	✅	✅	✅	❌
UPSCALE	❌	🟡	✅	✅	🟡	✅	🟡	✅	❌

8.5 KiB Raw Blame History

GGML Operations

How to add a backend to this table:

8.5 KiB

Raw Blame History