Add --no-op-offload to improve -ot pp perf in MoE models like llama4 400B (#13386)

2025-06-30 04:45:17 +00:00 · 2025-05-11 20:18:39 +08:00
parent 3eac209319
commit 7f323a589f
11 changed files with 57 additions and 9 deletions
--- a/src/llama-context.cpp
+++ b/src/llama-context.cpp
@ -93,6 +93,7 @@ llama_context::llama_context(
    }

    cparams.n_ubatch = std::min(cparams.n_batch, params.n_ubatch == 0 ? params.n_batch : params.n_ubatch);
+    cparams.op_offload = params.op_offload;

    const uint32_t n_ctx_per_seq = cparams.n_ctx / cparams.n_seq_max;

@ -243,7 +244,7 @@ llama_context::llama_context(
            }
        }

-        sched.reset(ggml_backend_sched_new(backend_ptrs.data(), backend_buft.data(), backend_ptrs.size(), max_nodes, pipeline_parallel));
+        sched.reset(ggml_backend_sched_new(backend_ptrs.data(), backend_buft.data(), backend_ptrs.size(), max_nodes, pipeline_parallel, cparams.op_offload));

        if (pipeline_parallel) {
            LLAMA_LOG_INFO("%s: pipeline parallelism enabled (n_copies=%d)\n", __func__, ggml_backend_sched_get_n_copies(sched.get()));
@ -1871,6 +1872,7 @@ llama_context_params llama_context_default_params() {
        /*.offload_kqv                 =*/ true,
        /*.flash_attn                  =*/ false,
        /*.no_perf                     =*/ true,
+        /*.op_offload                  =*/ true,
    };

    return result;