AI.DAGRUN and AI.DAGRUN_RO run stats (#336)

filipecosta90 · web-flow · commit 12ed36c75bba · 2020-04-22T20:38:54.000+02:00
* [fix] dagrun now adding statistics to runstats

* [add] added ai.info testing for dagrun

* [add] running dagrun tests on gpu

* [add] ensuring that dag tests with TF respect the WITH_TF rules. excluding util and rmutil from coverage report

* [fix] ensuring sync prior to save on tests
diff --git a/opt/Makefile b/opt/Makefile
@@ -85,6 +85,9 @@ SRCDIR=..
 BINDIR=$(BINROOT)/src
 DEPS_DIR=$(ROOT)/deps/$(OS)-$(ARCH)-$(DEVICE)
 INSTALL_DIR=$(BINROOT)/install-$(DEVICE)
+COV_EXCLUDE=\
+    './rmutil/*'\
+    './util/*'
 
 TARGET=$(BINDIR)/redisai.so
 INSTALLED_TARGET=$(INSTALL_DIR)/redisai.so
diff --git a/src/dag.c b/src/dag.c
@@ -144,9 +144,15 @@ int RedisAI_DagRun_Reply(RedisModuleCtx *ctx, RedisModuleString **argv,
 
       case REDISAI_DAG_CMD_MODELRUN: {
         rinfo->dagReplyLength++;
+        struct RedisAI_RunStats *rstats = NULL;
+        const char *runkey =
+            RedisModule_StringPtrLen(currentOp->runkey, NULL);
+        RAI_GetRunStats(runkey,&rstats);
         if (currentOp->result == REDISMODULE_ERR) {
+          RAI_SafeAddDataPoint(rstats,0,1,1,0);
           RedisModule_ReplyWithError(ctx, currentOp->err->detail_oneline);
         } else {
+          RAI_SafeAddDataPoint(rstats,currentOp->duration_us,1,0,0);
           RedisModule_ReplyWithSimpleString(ctx, "OK");
         }
         break;
diff --git a/src/model.c b/src/model.c
@@ -494,7 +494,6 @@ int RAI_ModelSerialize(RAI_Model *model, char **buffer, size_t *len, RAI_Error *
 
 int RedisAI_Parse_ModelRun_RedisCommand(RedisModuleCtx *ctx,
                                         RedisModuleString **argv, int argc,
-                                        // RedisAI_RunInfo **rinfo,
                                         RAI_ModelRunCtx **mctx,
                                         RedisModuleString ***outkeys,
                                         RAI_Model **mto, int useLocalContext,
diff --git a/src/model_script_run_session.c b/src/model_script_run_session.c
@@ -86,19 +86,12 @@ int RAI_ModelRunScriptRunReply(RedisModuleCtx *ctx, RedisModuleString **argv,
   struct RedisAI_RunInfo *rinfo = RedisModule_GetBlockedClientPrivateData(ctx);
 
   const char *runkey = RedisModule_StringPtrLen(rinfo->runkey, NULL);
-  AI_dictEntry *stats_entry = AI_dictFind(run_stats, runkey);
-
   struct RedisAI_RunStats *rstats = NULL;
-  if (stats_entry) {
-    rstats = AI_dictGetVal(stats_entry);
-  }
+  RAI_GetRunStats(runkey, &rstats);
 
   if (rinfo->result == REDISMODULE_ERR) {
     RedisModule_Log(ctx, "warning", "ERR %s", rinfo->err->detail);
-    if (rstats) {
-      rstats->calls += 1;
-      rstats->nerrors += 1;
-    }
+    RAI_SafeAddDataPoint(rstats,0,1,1,0);
     int ret = RedisModule_ReplyWithError(ctx, rinfo->err->detail_oneline);
     RAI_FreeRunInfo(ctx, rinfo);
     return ret;
@@ -119,10 +112,7 @@ int RAI_ModelRunScriptRunReply(RedisModuleCtx *ctx, RedisModuleString **argv,
                                           REDISMODULE_READ | REDISMODULE_WRITE);
     if (status == REDISMODULE_ERR) {
       RAI_FreeRunInfo(ctx, rinfo);
-      if (rstats) {
-        rstats->calls += 1;
-        rstats->nerrors += 1;
-      }
+      RAI_SafeAddDataPoint(rstats,0,1,1,0);
       return REDISMODULE_ERR;
     }
     RAI_Tensor *t = NULL;
@@ -144,16 +134,7 @@ int RAI_ModelRunScriptRunReply(RedisModuleCtx *ctx, RedisModuleString **argv,
       RedisAI_ReplicateTensorSet(ctx, rinfo->outkeys[i], t);
     }
   }
-
-  if (rstats) {
-    rstats->duration_us += rinfo->duration_us;
-    rstats->calls += 1;
-
-    if (rinfo->mctx) {
-      rstats->samples += batch_size;
-    }
-  }
-
+  RAI_SafeAddDataPoint(rstats,rinfo->duration_us,1,0,batch_size);
   RAI_FreeRunInfo(ctx, rinfo);
   return RedisModule_ReplyWithSimpleString(ctx, "OK");
 }
diff --git a/src/redisai.c b/src/redisai.c
@@ -772,37 +772,21 @@ int RedisAI_ScriptScan_RedisCommand(RedisModuleCtx *ctx, RedisModuleString **arg
   return REDISMODULE_OK;
 }
 
-/** 
+/**
 * AI.INFO <model_or_script_key> [RESETSTAT]
 */
 int RedisAI_Info_RedisCommand(RedisModuleCtx *ctx, RedisModuleString **argv, int argc) {
-  RedisModule_AutoMemory(ctx);
-
   if (argc != 2 && argc != 3) return RedisModule_WrongArity(ctx);
-
-  ArgsCursor ac;
-  ArgsCursor_InitRString(&ac, argv+1, argc-1);
-
-  const char* runkey;
-  AC_GetString(&ac, &runkey, NULL, 0); 
-
-  AI_dictEntry *stats_entry = AI_dictFind(run_stats, runkey);
-
-  if (!stats_entry) {
+  const char *runkey = RedisModule_StringPtrLen(argv[1], NULL);
+  struct RedisAI_RunStats *rstats = NULL;
+  if (RAI_GetRunStats(runkey, &rstats) == REDISMODULE_ERR) {
     return RedisModule_ReplyWithError(ctx, "ERR cannot find run info for key");
   }
 
-  struct RedisAI_RunStats *rstats = AI_dictGetVal(stats_entry);
-
-  if (!AC_IsAtEnd(&ac)) {
-    const char* opt;
-    AC_GetString(&ac, &opt, NULL, 0); 
-
-    if (strcasecmp(opt, "RESETSTAT") == 0) {
-      rstats->duration_us = 0;
-      rstats->samples = 0;
-      rstats->calls = 0;
-      rstats->nerrors = 0;
+  if(argc==3){
+    const char *subcommand = RedisModule_StringPtrLen(argv[2], NULL);
+    if (!strcasecmp(subcommand, "RESETSTAT")) {
+      RAI_ResetRunStats(rstats);
       RedisModule_ReplyWithSimpleString(ctx, "OK");
       return REDISMODULE_OK;
     }
@@ -953,7 +937,7 @@ int RedisAI_DagRun_RedisCommand(RedisModuleCtx *ctx, RedisModuleString **argv,
             return RedisModule_ReplyWithError(ctx,"ERR multi-device DAGs not supported yet");;
           }
         }
-        rinfo->dagOps[rinfo->dagNumberCommands]->runkey = argv[argpos];
+        rinfo->dagOps[rinfo->dagNumberCommands]->runkey = argv[argpos+1];
         rinfo->dagOps[rinfo->dagNumberCommands]->mctx =
             RAI_ModelRunCtxCreate(mto);
       }
@@ -1063,7 +1047,7 @@ int RedisAI_DagRunRO_RedisCommand(RedisModuleCtx *ctx, RedisModuleString **argv,
             return RedisModule_ReplyWithError(ctx,"ERR multi-device DAGs not supported yet");;
           }
         }
-        rinfo->dagOps[rinfo->dagNumberCommands]->runkey = argv[argpos];
+        rinfo->dagOps[rinfo->dagNumberCommands]->runkey = argv[argpos+1];
         rinfo->dagOps[rinfo->dagNumberCommands]->mctx =
             RAI_ModelRunCtxCreate(mto);
       }
diff --git a/src/stats.c b/src/stats.c
@@ -73,11 +73,47 @@ void RAI_RemoveStatsEntry(void* infokey) {
   }
 }
 
+int RAI_ResetRunStats(struct RedisAI_RunStats* rstats) {
+  rstats->duration_us = 0;
+  rstats->samples = 0;
+  rstats->calls = 0;
+  rstats->nerrors = 0;
+  return 0;
+}
+
+int RAI_SafeAddDataPoint(struct RedisAI_RunStats* rstats, long long duration,
+                         long long calls, long long errors, long long samples) {
+  int result = 1;
+  if (rstats == NULL) {
+    return result;
+  } else {
+    rstats->duration_us += duration;
+    rstats->calls += calls;
+    rstats->nerrors += errors;
+    rstats->samples += samples;
+    result = 0;
+  }
+  return result;
+}
+
 void RAI_FreeRunStats(struct RedisAI_RunStats* rstats) {
   RedisModule_Free(rstats->devicestr);
   RedisModule_Free(rstats->tag);
 }
 
+int RAI_GetRunStats(const char* runkey, struct RedisAI_RunStats** rstats) {
+  int result = 1;
+  if (run_stats == NULL) {
+    return result;
+  }
+  AI_dictEntry* entry = AI_dictFind(run_stats, runkey);
+  if (entry) {
+    *rstats = AI_dictGetVal(entry);
+    result = 0;
+  }
+  return result;
+}
+
 void RedisAI_FreeRunStats(RedisModuleCtx* ctx,
                           struct RedisAI_RunStats* rstats) {
   RedisModule_FreeString(ctx, rstats->key);
diff --git a/src/stats.h b/src/stats.h
@@ -33,8 +33,35 @@ void RAI_RemoveStatsEntry(void* infokey);
 void RAI_ListStatsEntries(RAI_RunType type, long long* nkeys,
                           RedisModuleString*** keys, const char*** tags);
 
+/**
+ *
+ * @param rstats
+ * @return 0 on success, or 1 if the reset failed
+ */
+int RAI_ResetRunStats(struct RedisAI_RunStats *rstats);
+
+/**
+ * Safely add datapoint to the run stats. Protected against null pointer runstats
+ * @param rstats
+ * @param duration
+ * @param calls
+ * @param errors
+ * @param samples
+ * @return 0 on success, or 1 if the addition failed
+ */
+int RAI_SafeAddDataPoint(struct RedisAI_RunStats* rstats,  long long duration, long long calls, long long errors, long long samples );
+
 void RAI_FreeRunStats(struct RedisAI_RunStats* rstats);
 
+
+/**
+ *
+ * @param runkey
+ * @param rstats
+ * @return 0 on success, or 1 if the the run stats with runkey does not exist
+ */
+int RAI_GetRunStats(const char *runkey,struct RedisAI_RunStats **rstats);
+
 void RedisAI_FreeRunStats(RedisModuleCtx* ctx, struct RedisAI_RunStats* rstats);
 
 #endif /* SRC_SATTS_H_ */
diff --git a/test/tests_dag.py b/test/tests_dag.py
@@ -1,4 +1,6 @@
 import redis
+from functools import wraps
+import multiprocessing as mp
 
 from includes import *
 
@@ -135,6 +137,8 @@ def test_dagro_common_errors(env):
 
 
 def test_dag_modelrun_financialNet_errors(env):
+    if not TEST_TF:
+        return
     con = env.getConnection()
 
     model_pb, creditcard_transactions, creditcard_referencedata = load_creditcardfraud_data(
@@ -379,6 +383,8 @@ def test_dag_keyspace_and_localcontext_tensorget(env):
 
 
 def test_dag_modelrun_financialNet_separate_tensorget(env):
+    if not TEST_TF:
+        return
     con = env.getConnection()
 
     model_pb, creditcard_transactions, creditcard_referencedata = load_creditcardfraud_data(
@@ -419,6 +425,8 @@ def test_dag_modelrun_financialNet_separate_tensorget(env):
 
 
 def test_dag_modelrun_financialNet(env):
+    if not TEST_TF:
+        return
     con = env.getConnection()
 
     model_pb, creditcard_transactions, creditcard_referencedata = load_creditcardfraud_data(
@@ -456,6 +464,8 @@ def test_dag_modelrun_financialNet(env):
 
 
 def test_dag_modelrun_financialNet_no_writes(env):
+    if not TEST_TF:
+        return
     con = env.getConnection()
 
     model_pb, creditcard_transactions, creditcard_referencedata = load_creditcardfraud_data(
@@ -505,11 +515,13 @@ def test_dag_modelrun_financialNet_no_writes(env):
 
 
 def test_dagro_modelrun_financialNet_no_writes_multiple_modelruns(env):
+    if not TEST_TF:
+        return
     con = env.getConnection()
 
     model_pb, creditcard_transactions, creditcard_referencedata = load_creditcardfraud_data(
         env)
-    ret = con.execute_command('AI.MODELSET', 'financialNet', 'TF', "CPU",
+    ret = con.execute_command('AI.MODELSET', 'financialNet', 'TF', DEVICE,
                               'INPUTS', 'transaction', 'reference', 'OUTPUTS', 'output', model_pb)
     env.assertEqual(ret, b'OK')
 
@@ -555,3 +567,28 @@ def test_dagro_modelrun_financialNet_no_writes_multiple_modelruns(env):
             tensor_number))
         env.assertEqual(ret, 0)
         tensor_number = tensor_number + 1
+
+    info = con.execute_command('AI.INFO', 'financialNet')
+    financialNetRunInfo = info_to_dict(info)
+
+    env.assertEqual('financialNet', financialNetRunInfo['key'])
+    env.assertEqual('MODEL', financialNetRunInfo['type'])
+    env.assertEqual('TF', financialNetRunInfo['backend'])
+    env.assertEqual(DEVICE, financialNetRunInfo['device'])
+    env.assertTrue(financialNetRunInfo['duration'] > 0)
+    env.assertEqual(0, financialNetRunInfo['samples'])
+    env.assertEqual(2*len(creditcard_transactions), financialNetRunInfo['calls'])
+    env.assertEqual(0, financialNetRunInfo['errors'])
+
+    con.execute_command('AI.INFO', 'financialNet', 'RESETSTAT')
+    info = con.execute_command('AI.INFO', 'financialNet')
+    financialNetRunInfo = info_to_dict(info)
+
+    env.assertEqual('financialNet', financialNetRunInfo['key'])
+    env.assertEqual('MODEL', financialNetRunInfo['type'])
+    env.assertEqual('TF', financialNetRunInfo['backend'])
+    env.assertEqual(DEVICE, financialNetRunInfo['device'])
+    env.assertEqual(0, financialNetRunInfo['duration'])
+    env.assertEqual(0, financialNetRunInfo['samples'])
+    env.assertEqual(0, financialNetRunInfo['calls'])
+    env.assertEqual(0, financialNetRunInfo['errors'])
diff --git a/test/tests_onnx.py b/test/tests_onnx.py
@@ -147,7 +147,7 @@ def test_onnx_modelrun_mnist(env):
 
 
 def test_onnx_modelrun_mnist_autobatch(env):
-    if not TEST_PT:
+    if not TEST_ONNX:
         return
 
     con = env.getConnection()
diff --git a/test/tests_pytorch.py b/test/tests_pytorch.py
@@ -658,6 +658,7 @@ def test_pytorch_model_rdb_save_load(env):
     con.execute_command('AI.MODELRUN', 'm', 'INPUTS', 'a', 'b', 'OUTPUTS', 'c')
     _, dtype_memory, _, shape_memory, _, data_memory = con.execute_command('AI.TENSORGET', 'c', 'META', 'VALUES')
 
+    ensureSlaveSynced(con, env)
     ret = con.execute_command('SAVE')
     env.assertEqual(ret, True)
 
diff --git a/test/tests_tensorflow.py b/test/tests_tensorflow.py
@@ -693,7 +693,7 @@ def test_tensorflow_modelrun_financialNet(env):
         env.assertEqual(ret, b'OK')
         tensor_number = tensor_number + 1
 
-    ret = con.execute_command('AI.MODELSET', 'financialNet', 'TF', "CPU",
+    ret = con.execute_command('AI.MODELSET', 'financialNet', 'TF', DEVICE,
                               'INPUTS', 'transaction', 'reference', 'OUTPUTS', 'output', model_pb)
     env.assertEqual(ret, b'OK')
 
@@ -727,7 +727,7 @@ def test_tensorflow_modelrun_financialNet_multiproc(env):
         env.assertEqual(ret, b'OK')
         tensor_number = tensor_number + 1
 
-    ret = con.execute_command('AI.MODELSET', 'financialNet', 'TF', "CPU",
+    ret = con.execute_command('AI.MODELSET', 'financialNet', 'TF', DEVICE,
                               'INPUTS', 'transaction', 'reference', 'OUTPUTS', 'output', model_pb)
     env.assertEqual(ret, b'OK')
 
diff --git a/test/tests_tflite.py b/test/tests_tflite.py
@@ -346,6 +346,7 @@ def test_tflite_model_rdb_save_load(env):
 
     model_serialized_memory = con.execute_command('AI.MODELGET', 'mnist', 'BLOB')
 
+    ensureSlaveSynced(con, env)
     ret = con.execute_command('SAVE')
     env.assertEqual(ret, True)