Server: Don't ignore llama.cpp params (#8754)

* Don't ignore llama.cpp params * Add fallback for max_tokens
2025-08-13 03:47:46 -04:00 · 2024-08-04 18:16:23 +00:00
parent ecf6b7f23e
commit 978ba3d83d
2 changed files with 1 additions and 19 deletions
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@@ -900,7 +900,7 @@ struct server_context {

        slot.params.stream             = json_value(data, "stream",            false);
        slot.params.cache_prompt       = json_value(data, "cache_prompt",      false);
-        slot.params.n_predict          = json_value(data, "n_predict",         default_params.n_predict);
+        slot.params.n_predict          = json_value(data, "n_predict",         json_value(data, "max_tokens", default_params.n_predict));
        slot.sparams.top_k             = json_value(data, "top_k",             default_sparams.top_k);
        slot.sparams.top_p             = json_value(data, "top_p",             default_sparams.top_p);
        slot.sparams.min_p             = json_value(data, "min_p",             default_sparams.min_p);