update

namchuai · namchuai · commit 3be991ecb07b · 2024-10-29T16:02:47.000+07:00
diff --git a/engine/cli/commands/cortex_upd_cmd.cc b/engine/cli/commands/cortex_upd_cmd.cc
@@ -150,7 +150,7 @@ std::optional<std::string> CheckNewUpdate(
           }
 
           if (CORTEX_VARIANT == file_manager_utils::kBetaVariant) {
-            for (auto& d : data) {
+            for (const auto& d : data) {
               if (auto tag = d["tag_name"].asString();
                   tag.find(kBetaComp) != std::string::npos) {
                 return tag;
@@ -380,7 +380,7 @@ bool CortexUpdCmd::GetBeta(const std::string& v) {
         auto json_res = json_helper::ParseJsonString(res->body);
 
         Json::Value json_data;
-        for (auto& jr : json_res) {
+        for (const auto& jr : json_res) {
           // Get the latest beta or match version
           if (auto tag = jr["tag_name"].asString();
               (v.empty() && tag.find(kBetaComp) != std::string::npos) ||
@@ -429,13 +429,12 @@ bool CortexUpdCmd::GetBeta(const std::string& v) {
 
   assert(!!downloaded_exe_path);
   return InstallNewVersion(dst, downloaded_exe_path.value());
-  ;
 }
 
 std::optional<std::string> CortexUpdCmd::HandleGithubRelease(
     const Json::Value& assets, const std::string& os_arch) {
   std::string matched_variant = "";
-  for (auto& asset : assets) {
+  for (const auto& asset : assets) {
     auto asset_name = asset["name"].asString();
     if (asset_name.find(kCortexBinary) != std::string::npos &&
         asset_name.find(os_arch) != std::string::npos &&
@@ -451,7 +450,7 @@ std::optional<std::string> CortexUpdCmd::HandleGithubRelease(
   }
   CTL_INF("Matched variant: " << matched_variant);
 
-  for (auto& asset : assets) {
+  for (const auto& asset : assets) {
     auto asset_name = asset["name"].asString();
     if (asset_name == matched_variant) {
       auto download_url = asset["browser_download_url"].asString();
diff --git a/engine/config/gguf_parser.cc b/engine/config/gguf_parser.cc
@@ -85,7 +85,6 @@ void GGUFHandler::OpenFile(const std::string& file_path) {
     throw std::runtime_error("Failed to get file size");
   }
   int file_descriptor = open(file_path.c_str(), O_RDONLY);
-  ;
   // Memory-map the file
   data_ = static_cast<uint8_t*>(
       mmap(nullptr, file_size_, PROT_READ, MAP_PRIVATE, file_descriptor, 0));
diff --git a/engine/controllers/server.cc b/engine/controllers/server.cc
@@ -92,15 +92,6 @@ void server::GetModels(const HttpRequestPtr& req,
   LOG_TRACE << "Done get models";
 }
 
-void server::GetEngines(
-    const HttpRequestPtr& req,
-    std::function<void(const HttpResponsePtr&)>&& callback) {
-  // TODO: namh
-  // auto ir = inference_svc_->GetEngines(req->getJsonObject());
-  // auto resp = cortex_utils::CreateCortexHttpJsonResponse(ir);
-  // callback(resp);
-}
-
 void server::FineTuning(
     const HttpRequestPtr& req,
     std::function<void(const HttpResponsePtr&)>&& callback) {
@@ -122,17 +113,6 @@ void server::LoadModel(const HttpRequestPtr& req,
   LOG_TRACE << "Done load model";
 }
 
-void server::UnloadEngine(
-    const HttpRequestPtr& req,
-    std::function<void(const HttpResponsePtr&)>&& callback) {
-  // namh implement this
-  // auto ir = engine_service_->UnloadEngine(req->getJsonObject());
-  // auto resp = cortex_utils::CreateCortexHttpJsonResponse(std::get<1>(ir));
-  // resp->setStatusCode(
-  //     static_cast<HttpStatusCode>(std::get<0>(ir)["status_code"].asInt()));
-  // callback(resp);
-}
-
 void server::ProcessStreamRes(std::function<void(const HttpResponsePtr&)> cb,
                               std::shared_ptr<services::SyncQueue> q) {
   auto err_or_done = std::make_shared<std::atomic_bool>(false);
diff --git a/engine/controllers/server.h b/engine/controllers/server.h
@@ -43,24 +43,14 @@ class server : public drogon::HttpController<server, false>,
   METHOD_ADD(server::UnloadModel, "unloadmodel", Post);
   METHOD_ADD(server::ModelStatus, "modelstatus", Post);
   METHOD_ADD(server::GetModels, "models", Get);
-  METHOD_ADD(server::GetEngines, "engines", Get);
 
   // cortex.python API
   METHOD_ADD(server::FineTuning, "finetuning", Post);
 
   // Openai compatible path
   ADD_METHOD_TO(server::ChatCompletion, "/v1/chat/completions", Post);
-  // ADD_METHOD_TO(server::GetModels, "/v1/models", Get);
   ADD_METHOD_TO(server::FineTuning, "/v1/fine_tuning/job", Post);
-
-  // ADD_METHOD_TO(server::handlePrelight, "/v1/chat/completions", Options);
-  // NOTE: prelight will be added back when browser support is properly planned
-
   ADD_METHOD_TO(server::Embedding, "/v1/embeddings", Post);
-  // ADD_METHOD_TO(server::handlePrelight, "/v1/embeddings", Options);
-
-  // PATH_ADD("/llama/chat_completion", Post);
-  METHOD_ADD(server::UnloadEngine, "unloadengine", Post);
 
   METHOD_LIST_END
   void ChatCompletion(
@@ -81,14 +71,9 @@ class server : public drogon::HttpController<server, false>,
   void GetModels(
       const HttpRequestPtr& req,
       std::function<void(const HttpResponsePtr&)>&& callback) override;
-  void GetEngines(
-      const HttpRequestPtr& req,
-      std::function<void(const HttpResponsePtr&)>&& callback) override;
   void FineTuning(
       const HttpRequestPtr& req,
       std::function<void(const HttpResponsePtr&)>&& callback) override;
-  void UnloadEngine(const HttpRequestPtr& req,
-                    std::function<void(const HttpResponsePtr&)>&& callback);
 
  private:
   void ProcessStreamRes(std::function<void(const HttpResponsePtr&)> cb,
diff --git a/engine/services/inference_service.cc b/engine/services/inference_service.cc
@@ -1,16 +1,9 @@
 #include "inference_service.h"
+#include <drogon/HttpTypes.h>
 #include "utils/engine_constants.h"
 #include "utils/function_calling/common.h"
 
 namespace services {
-
-namespace {
-constexpr const int k200OK = 200;
-constexpr const int k400BadRequest = 400;
-constexpr const int k409Conflict = 409;
-constexpr const int k500InternalServerError = 500;
-}  // namespace
-
 cpp::result<void, InferResult> InferenceService::HandleChatCompletion(
     std::shared_ptr<SyncQueue> q, std::shared_ptr<Json::Value> json_body) {
   std::string engine_type;
@@ -26,7 +19,7 @@ cpp::result<void, InferResult> InferenceService::HandleChatCompletion(
     Json::Value res;
     res["message"] = "Engine is not loaded yet";
     Json::Value stt;
-    stt["status_code"] = k409Conflict;
+    stt["status_code"] = drogon::k400BadRequest;
     LOG_WARN << "Engine is not loaded yet";
     return cpp::fail(std::make_pair(stt, res));
   }
@@ -54,9 +47,9 @@ cpp::result<void, InferResult> InferenceService::HandleEmbedding(
   auto engine_result = engine_service_->GetLoadedEngine(engine_type);
   if (engine_result.has_error()) {
     Json::Value res;
-    res["message"] = "Engine is not loaded yet";
     Json::Value stt;
-    stt["status_code"] = k409Conflict;
+    res["message"] = "Engine is not loaded yet";
+    stt["status_code"] = drogon::k400BadRequest;
     LOG_WARN << "Engine is not loaded yet";
     return cpp::fail(std::make_pair(stt, res));
   }
@@ -84,7 +77,7 @@ InferResult InferenceService::LoadModel(
 
     r["message"] = "Could not load engine " + engine_type + ": " +
                    load_engine_result.error();
-    stt["status_code"] = k500InternalServerError;
+    stt["status_code"] = drogon::k500InternalServerError;
     return std::make_pair(stt, r);
   }
 
@@ -114,7 +107,7 @@ InferResult InferenceService::UnloadModel(
     Json::Value res;
     res["message"] = "Engine is not loaded yet";
     Json::Value stt;
-    stt["status_code"] = k409Conflict;
+    stt["status_code"] = drogon::k400BadRequest;
     LOG_WARN << "Engine is not loaded yet";
     return std::make_pair(stt, res);
   }
@@ -145,7 +138,7 @@ InferResult InferenceService::GetModelStatus(
     Json::Value res;
     res["message"] = "Engine is not loaded yet";
     Json::Value stt;
-    stt["status_code"] = k409Conflict;
+    stt["status_code"] = drogon::k400BadRequest;
     LOG_WARN << "Engine is not loaded yet";
     return std::make_pair(stt, res);
   }
@@ -168,7 +161,7 @@ InferResult InferenceService::GetModels(
   auto loaded_engines = engine_service_->GetLoadedEngines();
   if (loaded_engines.empty()) {
     r["message"] = "No engine is loaded yet";
-    stt["status_code"] = k400BadRequest;
+    stt["status_code"] = drogon::k400BadRequest;
     return std::make_pair(stt, r);
   }
 
@@ -189,7 +182,7 @@ InferResult InferenceService::GetModels(
   Json::Value root;
   root["data"] = resp_data;
   root["object"] = "list";
-  stt["status_code"] = k200OK;
+  stt["status_code"] = drogon::k200OK;
   return std::make_pair(stt, root);
 }
 
@@ -215,7 +208,7 @@ InferResult InferenceService::FineTuning(
   //
   //     Json::Value res;
   //     r["message"] = "Could not load engine " + ne;
-  //     stt["status_code"] = k500InternalServerError;
+  //     stt["status_code"] = drogon::k500InternalServerError;
   //     return std::make_pair(stt, r);
   //   }
   //
@@ -236,7 +229,7 @@ InferResult InferenceService::FineTuning(
   // } else {
   //   LOG_WARN << "Method is not supported yet";
   r["message"] = "Method is not supported yet";
-  stt["status_code"] = k500InternalServerError;
+  stt["status_code"] = drogon::k500InternalServerError;
   //   return std::make_pair(stt, r);
   // }
   // LOG_TRACE << "Done fine-tuning";

Original file line number	Diff line number	Diff line change
`@@ -85,7 +85,6 @@ void GGUFHandler::OpenFile(const std::string& file_path) {`
`85`	`85`	`throw std::runtime_error("Failed to get file size");`
`86`	`86`	`}`
`87`	`87`	`int file_descriptor = open(file_path.c_str(), O_RDONLY);`
`88`		`- ;`
`89`	`88`	`// Memory-map the file`
`90`	`89`	`data_ = static_cast<uint8_t*>(`
`91`	`90`	`mmap(nullptr, file_size_, PROT_READ, MAP_PRIVATE, file_descriptor, 0));`