added doc strings and exposed auto-select parameters

prasankh · prasankh · commit c2d1416dcc99 · 2024-05-15T11:32:58.000+05:30
diff --git a/ads/opctl/operator/lowcode/anomaly/operator_config.py b/ads/opctl/operator/lowcode/anomaly/operator_config.py
@@ -16,6 +16,7 @@
     InputData,
 )
 from .const import SupportedModels
+from ads.opctl.operator.lowcode.common.utils import find_output_dirname
 
 
 @dataclass(repr=True)
@@ -79,6 +80,7 @@ class AnomalyOperatorSpec(DataClassSerializable):
 
     def __post_init__(self):
         """Adjusts the specification details."""
+        self.output_directory = self.output_directory or OutputDirectory(url=find_output_dirname(self.output_directory))
         self.report_file_name = self.report_file_name or "report.html"
         self.report_theme = self.report_theme or "light"
         self.inliers_filename = self.inliers_filename or "inliers.csv"
diff --git a/ads/opctl/operator/lowcode/forecast/const.py b/ads/opctl/operator/lowcode/forecast/const.py
@@ -87,3 +87,4 @@ class ForecastOutputColumns(str, metaclass=ExtendedEnumMeta):
 SUMMARY_METRICS_HORIZON_LIMIT = 10
 PROPHET_INTERNAL_DATE_COL = "ds"
 RENDER_LIMIT = 5000
+AUTO_SELECT = "auto-select"
diff --git a/ads/opctl/operator/lowcode/forecast/model/base_model.py b/ads/opctl/operator/lowcode/forecast/model/base_model.py
@@ -44,6 +44,7 @@
     SupportedMetrics,
     SupportedModels,
     SpeedAccuracyMode,
+    AUTO_SELECT
 )
 from ..operator_config import ForecastOperatorConfig, ForecastOperatorSpec
 
@@ -248,7 +249,7 @@ def generate_report(self):
                     train_metrics_sections = [sec9_text, sec9]
 
                 backtest_sections = []
-                if self.spec.model == "auto-select":
+                if self.spec.model == AUTO_SELECT:
                     output_dir = self.spec.output_directory.url
                     backtest_report_name = "backtest_stats.csv"
                     backtest_stats = pd.read_csv(f"{output_dir}/{backtest_report_name}")
diff --git a/ads/opctl/operator/lowcode/forecast/model/factory.py b/ads/opctl/operator/lowcode/forecast/model/factory.py
@@ -4,7 +4,7 @@
 # Copyright (c) 2023 Oracle and/or its affiliates.
 # Licensed under the Universal Permissive License v 1.0 as shown at https://oss.oracle.com/licenses/upl/
 
-from ..const import SupportedModels
+from ..const import SupportedModels, AUTO_SELECT
 from ..operator_config import ForecastOperatorConfig
 from .arima import ArimaOperatorModel
 from .automlx import AutoMLXOperatorModel
@@ -14,6 +14,7 @@
 from .prophet import ProphetOperatorModel
 from .forecast_datasets import ForecastDatasets
 from .ml_forecast import MLForecastOperatorModel
+from ..model_evaluator import ModelEvaluator
 
 class UnSupportedModelError(Exception):
     def __init__(self, model_type: str):
@@ -62,8 +63,9 @@ def get_model(
             In case of not supported model.
         """
         model_type = operator_config.spec.model
-        if model_type == "auto-select":
+        if model_type == AUTO_SELECT:
             model_type = cls.auto_select_model(datasets, operator_config)
+            operator_config.spec.model_kwargs = dict()
         if model_type not in cls._MAP:
             raise UnSupportedModelError(model_type)
         return cls._MAP[model_type](config=operator_config, datasets=datasets)
@@ -88,7 +90,8 @@ def auto_select_model(
         str
             The type of the model.
         """
-        from ..model_evaluator import ModelEvaluator
-        all_models = cls._MAP.keys()
-        model_evaluator = ModelEvaluator(all_models)
+        all_models = operator_config.spec.model_kwargs.get("model_list", cls._MAP.keys())
+        num_backtests = operator_config.spec.model_kwargs.get("num_backtests", 5)
+        sample_ratio = operator_config.spec.model_kwargs.get("sample_ratio", 0.20)
+        model_evaluator = ModelEvaluator(all_models, num_backtests, sample_ratio)
         return model_evaluator.find_best_model(datasets, operator_config)
diff --git a/ads/opctl/operator/lowcode/forecast/model_evaluator.py b/ads/opctl/operator/lowcode/forecast/model_evaluator.py
@@ -15,7 +15,22 @@
 
 
 class ModelEvaluator:
+    """
+    A class used to evaluate and determine the best model or framework from a given set of candidates.
+
+    This class is responsible for comparing different models or frameworks based on specified evaluation
+    metrics and returning the best-performing option.
+    """
     def __init__(self, models, k=5, subsample_ratio=0.20):
+        """
+        Initializes the ModelEvaluator with a list of models, number of backtests and subsample ratio.
+
+        Properties:
+        ----------
+        models (list): The list of model to be evaluated.
+        k (int): The number of times each model is backtested to verify its performance.
+        subsample_ratio (float): The proportion of the data used in the evaluation process.
+        """
         self.models = models
         self.k = k
         self.subsample_ratio = subsample_ratio
@@ -83,6 +98,7 @@ def create_operator_config(self, operator_config, backtest, model, historical_da
         backtest_spec["additional_data"]["url"] = additional_data_url
         backtest_spec["test_data"]["url"] = test_data_url
         backtest_spec["model"] = model
+        backtest_spec['model_kwargs'] = None
         backtest_spec["output_directory"] = {"url": output_file_path}
         backtest_spec["target_category_columns"] = [DataColumns.Series]
         backtest_spec['generate_explanations'] = False
diff --git a/ads/opctl/operator/lowcode/forecast/utils.py b/ads/opctl/operator/lowcode/forecast/utils.py
@@ -33,7 +33,7 @@
 from .operator_config import ForecastOperatorSpec, ForecastOperatorConfig
 from ads.opctl.operator.lowcode.common.utils import merge_category_columns
 from ads.opctl.operator.lowcode.forecast.const import ForecastOutputColumns
-# from ads.opctl.operator.lowcode.forecast.model.forecast_datasets import TestData, ForecastOutput
+import report_creator as rc
 
 
 def _label_encode_dataframe(df, no_encode=set()):
@@ -256,8 +256,6 @@ def evaluate_train_metrics(output, metrics_col_name=None):
 
 
 def _select_plot_list(fn, series_ids):
-    import report_creator as rc
-
     blocks = [rc.Widget(fn(s_id=s_id), label=s_id) for s_id in series_ids]
     return rc.Select(blocks=blocks) if len(blocks) > 1 else blocks[0]
 
@@ -280,7 +278,6 @@ def get_auto_select_plot(backtest_results):
             name=column,
         ))
 
-    import report_creator as rc
     return rc.Widget(fig)