dmlc · CodingCat · Feb 2, 2020 · Feb 2, 2020 · Feb 2, 2020 · Feb 2, 2020
diff --git a/include/xgboost/generic_parameters.h b/include/xgboost/generic_parameters.h
@@ -30,6 +30,7 @@ struct GenericParameter : public XGBoostParameter<GenericParameter> {
   bool enable_experimental_json_serialization {false};
   bool validate_parameters {false};
   bool validate_features {true};
+  bool adding_all_to_cache {false};
 
   void CheckDeprecated() {
     if (this->n_gpus != 0) {
@@ -85,6 +86,9 @@ struct GenericParameter : public XGBoostParameter<GenericParameter> {
 "\n\tDeprecated. Single process multi-GPU training is no longer supported."
 "\n\tPlease switch to distributed training with one process per GPU."
 "\n\tThis can be done using Dask or Spark.  See documentation for details.");
+    DMLC_DECLARE_FIELD(adding_all_to_cache)
+      .set_default(false)
+      .describe("adding prediction results for all dmatrix to prediction cache");
   }
 
  private:

diff --git a/jvm-packages/xgboost4j-spark/src/main/scala/ml/dmlc/xgboost4j/scala/spark/XGBoost.scala b/jvm-packages/xgboost4j-spark/src/main/scala/ml/dmlc/xgboost4j/scala/spark/XGBoost.scala
@@ -154,6 +154,14 @@ private[this] class XGBoostExecutionParamsFactory(rawParams: Map[String, Any], s
       logger.info("parameter \"maximize_evaluation_metrics\" is set to " + maximize)
       overridedParams += ("maximize_evaluation_metrics" -> maximize)
     }
+
+    if (params.contains("checkpoint_path") && params.contains("checkpoint_interval") &&
+      params("checkpoint_path") != null &&
+      params("checkpoint_path").asInstanceOf[String].length > 0 &&
+      params("checkpoint_interval").asInstanceOf[Int] > 0) {
+      overridedParams += "adding_all_to_cache" -> true
+    }
+
     overridedParams
   }
 

diff --git a/jvm-packages/xgboost4j/src/main/java/ml/dmlc/xgboost4j/java/Booster.java b/jvm-packages/xgboost4j/src/main/java/ml/dmlc/xgboost4j/java/Booster.java
@@ -678,7 +678,7 @@ void saveRabitCheckpoint() throws XGBoostError {
    */
   private void init(DMatrix[] cacheMats) throws XGBoostError {
     long[] handles = null;
-    if (cacheMats != null) {
+    if (cacheMats != null && cacheMats.length > 0) {
       handles = dmatrixsToHandles(cacheMats);
     }
     long[] out = new long[1];

diff --git a/jvm-packages/xgboost4j/src/main/resources/xgboost4j-version.properties b/jvm-packages/xgboost4j/src/main/resources/xgboost4j-version.properties
@@ -1 +1 @@
-version=${project.version}
+version=${project.version}
diff --git a/src/learner.cc b/src/learner.cc
@@ -202,6 +202,7 @@ class LearnerImpl : public Learner {
     tparam_.UpdateAllowUnknown(args);
     mparam_.UpdateAllowUnknown(args);
     generic_parameters_.UpdateAllowUnknown(args);
+    std::cout << "all_to_prediction_cache:" << generic_parameters_.adding_all_to_cache << "\n";
     generic_parameters_.CheckDeprecated();
 
     ConsoleLogger::Configure(args);
@@ -704,6 +705,7 @@ class LearnerImpl : public Learner {
     this->ValidateDMatrix(train);
 
     monitor_.Start("PredictRaw");
+    std::cout << "calling UpdateOneIter\n";
     this->PredictRaw(train, &preds_[train], true);
     monitor_.Stop("PredictRaw");
     TrainingObserver::Instance().Observe(preds_[train], "Predictions");
@@ -745,6 +747,7 @@ class LearnerImpl : public Learner {
     for (size_t i = 0; i < data_sets.size(); ++i) {
       DMatrix * dmat = data_sets[i];
       this->ValidateDMatrix(dmat);
+      std::cout << "calling EvalOneIter\n";
       this->PredictRaw(data_sets[i], &preds_[dmat], false);
       obj_->EvalTransform(&preds_[dmat]);
       for (auto& ev : metrics_) {

diff --git a/src/predictor/cpu_predictor.cc b/src/predictor/cpu_predictor.cc
@@ -171,18 +171,25 @@ class CPUPredictor : public Predictor {
     if (ntree_limit == 0 || ntree_limit > model.trees.size()) {
       ntree_limit = static_cast<unsigned>(model.trees.size());
     }
-
+    std::cout << "run PredLoopInternal in PredictBatch\n";
     this->PredLoopInternal(dmat, &out_preds->HostVector(), model,
                            tree_begin, ntree_limit);
 
     auto cache_entry = this->FindCache(dmat);
     if (cache_entry == cache_->cend()) {
-      return;
+      std::cout << "cannot find cache\n";
+      if (!generic_param_->adding_all_to_cache || !(*cache_).empty()) {
+        return;
+      } else {
+        std::cout << "adding dmatrix to cache\n";
+        (*cache_)[dmat].data = static_cast<std::shared_ptr<DMatrix>>(dmat);
+        return;
+      }
     }
     if (cache_entry->second.predictions.Size() == 0) {
       // See comment in GPUPredictor::PredictBatch.
       InitOutPredictions(cache_entry->second.data->Info(),
-                         &(cache_entry->second.predictions), model);
+              &(cache_entry->second.predictions), model);
       cache_entry->second.predictions.Copy(*out_preds);
     }
   }
@@ -198,6 +205,7 @@ class CPUPredictor : public Predictor {
 
       if (e.predictions.Size() == 0) {
         InitOutPredictions(e.data->Info(), &(e.predictions), model);
+        std::cout << "calling PredLoopInternal in UpdatePredictionCache_1\n";
         PredLoopInternal(e.data.get(), &(e.predictions.HostVector()), model, 0,
                          model.trees.size());
       } else if (model.learner_model_param_->num_output_group == 1 && updaters->size() > 0 &&
@@ -206,6 +214,7 @@ class CPUPredictor : public Predictor {
                                                          &(e.predictions))) {
         {}  // do nothing
       } else {
+        std::cout << "calling PredLoopInternal in UpdatePredictionCache_2\n";
         PredLoopInternal(e.data.get(), &(e.predictions.HostVector()), model, old_ntree,
                          model.trees.size());
       }