ggml-cuda : use graph allocator (#2684)

use a different function for no_alloc to avoid breaking backwards compat, fixes lora remove 512 n_batch limit fixed 2048 batch size cleanup Co-authored-by: Johannes Gäßler <johannesg@5d6.de>
2025-08-20 06:36:48 -04:00 · 2023-08-22 15:25:19 +02:00
parent ef3f333d37
commit 1123f7fbdf
4 changed files with 92 additions and 228 deletions
--- a/common/common.cpp
+++ b/common/common.cpp
@@ -289,7 +289,6 @@ bool gpt_params_parse(int argc, char ** argv, gpt_params & params) {
                break;
            }
            params.n_batch = std::stoi(argv[i]);
-            params.n_batch = std::min(512, params.n_batch);
        } else if (arg == "--keep") {
            if (++i >= argc) {
                invalid_param = true;