radicalbit · dtria91 · Jul 4, 2024 · Jul 2, 2024 · Jul 2, 2024 · Jul 3, 2024
diff --git a/api/app/models/metrics/data_quality_dto.py b/api/app/models/metrics/data_quality_dto.py
@@ -72,6 +72,20 @@ class NumericalFeatureMetrics(FeatureMetrics):
     )
 
 
+class NumericalTargetMetrics(FeatureMetrics):
+    type: str = 'numerical'
+    mean: float
+    std: float
+    min: float
+    max: float
+    median_metrics: MedianMetrics
+    histogram: Histogram
+
+    model_config = ConfigDict(
+        populate_by_name=True, alias_generator=to_camel, protected_namespaces=()
+    )
+
+
 class CategoryFrequency(BaseModel):
     name: str
     count: int
@@ -116,7 +130,16 @@ class ClassificationDataQuality(BaseModel):
 
 
 class RegressionDataQuality(BaseModel):
-    pass
+    n_observations: int
+    target_metrics: NumericalTargetMetrics
+    feature_metrics: List[NumericalFeatureMetrics]
+
+    model_config = ConfigDict(
+        arbitrary_types_allowed=True,
+        populate_by_name=True,
+        alias_generator=to_camel,
+        protected_namespaces=(),
+    )
 
 
 class DataQualityDTO(BaseModel):

diff --git a/api/tests/commons/db_mock.py b/api/tests/commons/db_mock.py
@@ -265,7 +265,7 @@ def get_sample_current_dataset(
     },
 }
 
-data_quality_dict = {
+classification_data_quality_dict = {
     'nObservations': 200,
     'classMetrics': [
         {'name': 'classA', 'count': 100, 'percentage': 50.0},
@@ -312,6 +312,56 @@ def get_sample_current_dataset(
     ],
 }
 
+regression_data_quality_dict = {
+    'nObservations': 200,
+    'targetMetrics': {
+        'max': 3410.0,
+        'min': 2.0,
+        'std': 686.62,
+        'mean': 848.12,
+        'type': 'numerical',
+        'histogram': {
+            'buckets': [2.0, 342.8, 683.6, 1024.4],
+            'reference_values': [204, 144, 165, 89],
+        },
+        'feature_name': 'ground_truth',
+        'missing_value': {'count': 0, 'percentage': 0.0},
+        'median_metrics': {'median': 713.0, 'perc_25': 315.0, 'perc_75': 1097.0},
+    },
+    'featureMetrics': [
+        {
+            'max': 731.0,
+            'min': 1.0,
+            'std': 211.16,
+            'mean': 366.0,
+            'type': 'numerical',
+            'histogram': {
+                'buckets': [1.0, 74.0, 147.0, 220.0],
+                'reference_values': [73, 73, 73, 73],
+            },
+            'feature_name': 'instant',
+            'missing_value': {'count': 0, 'percentage': 0.0},
+            'median_metrics': {'median': 366.0, 'perc_25': 183.5, 'perc_75': 548.5},
+            'class_median_metrics': [],
+        },
+        {
+            'max': 4.0,
+            'min': 1.0,
+            'std': 1.12,
+            'mean': 2.49,
+            'type': 'numerical',
+            'histogram': {
+                'buckets': [1.0, 1.3, 1.6, 1.9],
+                'reference_values': [181, 0, 0, 184],
+            },
+            'feature_name': 'season',
+            'missing_value': {'count': 0, 'percentage': 0.0},
+            'median_metrics': {'median': 3.0, 'perc_25': 2.0, 'perc_75': 3.0},
+            'class_median_metrics': [],
+        },
+    ],
+}
+
 drift_dict = {
     'featureMetrics': [
         {
@@ -333,7 +383,7 @@ def get_sample_current_dataset(
 def get_sample_reference_metrics(
     reference_uuid: uuid.UUID = REFERENCE_UUID,
     model_quality: Dict = binary_model_quality_dict,
-    data_quality: Dict = data_quality_dict,
+    data_quality: Dict = classification_data_quality_dict,
     statistics: Dict = statistics_dict,
 ) -> ReferenceDatasetMetrics:
     return ReferenceDatasetMetrics(
@@ -347,7 +397,7 @@ def get_sample_reference_metrics(
 def get_sample_current_metrics(
     current_uuid: uuid.UUID = CURRENT_UUID,
     model_quality: Dict = binary_current_model_quality_dict,
-    data_quality: Dict = data_quality_dict,
+    data_quality: Dict = classification_data_quality_dict,
     statistics: Dict = statistics_dict,
     drift: Dict = drift_dict,
 ) -> CurrentDatasetMetrics:

diff --git a/api/tests/services/metrics_service_test.py b/api/tests/services/metrics_service_test.py
@@ -257,6 +257,36 @@ def test_get_empty_reference_data_quality_by_model_by_uuid(self):
             data_quality_data=None,
         )
 
+    def test_get_reference_regression_data_quality_by_model_by_uuid(self):
+        status = JobStatus.SUCCEEDED
+        reference_dataset = db_mock.get_sample_reference_dataset(status=status.value)
+        reference_metrics = db_mock.get_sample_reference_metrics(
+            data_quality=db_mock.regression_data_quality_dict
+        )
+        model = db_mock.get_sample_model(model_type=ModelType.REGRESSION)
+        self.model_service.get_model_by_uuid = MagicMock(return_value=model)
+        self.reference_dataset_dao.get_reference_dataset_by_model_uuid = MagicMock(
+            return_value=reference_dataset
+        )
+        self.reference_metrics_dao.get_reference_metrics_by_model_uuid = MagicMock(
+            return_value=reference_metrics
+        )
+        res = self.metrics_service.get_reference_data_quality_by_model_by_uuid(
+            model_uuid
+        )
+        self.reference_dataset_dao.get_reference_dataset_by_model_uuid.assert_called_once_with(
+            model_uuid
+        )
+        self.reference_metrics_dao.get_reference_metrics_by_model_uuid.assert_called_once_with(
+            model_uuid
+        )
+
+        assert res == DataQualityDTO.from_dict(
+            model_type=model.model_type,
+            job_status=reference_dataset.status,
+            data_quality_data=reference_metrics.data_quality,
+        )
+
     def test_get_current_statistics_by_model_by_uuid(self):
         status = JobStatus.SUCCEEDED
         current_dataset = db_mock.get_sample_current_dataset(status=status.value)
@@ -462,6 +492,34 @@ def test_get_empty_current_data_quality_by_model_by_uuid(self):
             data_quality_data=None,
         )
 
+    def test_get_current_regression_data_quality_by_model_by_uuid(self):
+        status = JobStatus.SUCCEEDED
+        current_dataset = db_mock.get_sample_current_dataset(status=status.value)
+        current_metrics = db_mock.get_sample_current_metrics(data_quality=db_mock.regression_data_quality_dict)
+        model = db_mock.get_sample_model(model_type=ModelType.REGRESSION)
+        self.model_service.get_model_by_uuid = MagicMock(return_value=model)
+        self.current_dataset_dao.get_current_dataset_by_model_uuid = MagicMock(
+            return_value=current_dataset
+        )
+        self.current_metrics_dao.get_current_metrics_by_model_uuid = MagicMock(
+            return_value=current_metrics
+        )
+        res = self.metrics_service.get_current_data_quality_by_model_by_uuid(
+            model_uuid, current_dataset.uuid
+        )
+        self.current_dataset_dao.get_current_dataset_by_model_uuid.assert_called_once_with(
+            model_uuid, current_dataset.uuid
+        )
+        self.current_metrics_dao.get_current_metrics_by_model_uuid.assert_called_once_with(
+            model_uuid, current_dataset.uuid
+        )
+
+        assert res == DataQualityDTO.from_dict(
+            model_type=model.model_type,
+            job_status=current_dataset.status,
+            data_quality_data=current_metrics.data_quality,
+        )
+
     def test_get_current_binary_class_model_quality_by_model_by_uuid(self):
         status = JobStatus.SUCCEEDED
         current_dataset = db_mock.get_sample_current_dataset(status=status.value)

diff --git a/api/tests/validation/model_type_validator_test.py b/api/tests/validation/model_type_validator_test.py
@@ -52,7 +52,9 @@ def test_prediction_for_binary():
 def test_prediction_for_multiclass():
     """Tests that for ModelType.MULTI_CLASS: prediction must be a number or string."""
     with pytest.raises(ValidationError) as excinfo:
-        model_data = get_model_sample_wrong(['outputs.prediction'], ModelType.MULTI_CLASS)
+        model_data = get_model_sample_wrong(
+            ['outputs.prediction'], ModelType.MULTI_CLASS
+        )
         ModelIn.model_validate(ModelIn(**model_data))
     assert 'prediction must be a number or string for a ModelType.MULTI_CLASS' in str(
         excinfo.value
@@ -62,7 +64,9 @@ def test_prediction_for_multiclass():
 def test_prediction_for_regression():
     """Tests that for ModelType.REGRESSION: prediction must be a number."""
     with pytest.raises(ValidationError) as excinfo:
-        model_data = get_model_sample_wrong(['outputs.prediction'], ModelType.REGRESSION)
+        model_data = get_model_sample_wrong(
+            ['outputs.prediction'], ModelType.REGRESSION
+        )
         ModelIn.model_validate(ModelIn(**model_data))
     assert 'prediction must be a number for a ModelType.REGRESSION' in str(
         excinfo.value

diff --git a/sdk/radicalbit_platform_sdk/models/dataset_data_quality.py b/sdk/radicalbit_platform_sdk/models/dataset_data_quality.py
@@ -64,6 +64,18 @@ class NumericalFeatureMetrics(FeatureMetrics):
     model_config = ConfigDict(populate_by_name=True, alias_generator=to_camel)
 
 
+class NumericalTargetMetrics(FeatureMetrics):
+    type: str = 'numerical'
+    mean: float
+    std: float
+    min: float
+    max: float
+    median_metrics: MedianMetrics
+    histogram: Histogram
+
+    model_config = ConfigDict(populate_by_name=True, alias_generator=to_camel)
+
+
 class CategoryFrequency(BaseModel):
     name: str
     count: int
@@ -97,4 +109,12 @@ class ClassificationDataQuality(DataQuality):
 
 
 class RegressionDataQuality(DataQuality):
-    pass
+    n_observations: int
+    target_metrics: NumericalTargetMetrics
+    feature_metrics: List[NumericalFeatureMetrics]
+
+    model_config = ConfigDict(
+        arbitrary_types_allowed=True,
+        populate_by_name=True,
+        alias_generator=to_camel,
+    )
diff --git a/sdk/tests/apis/model_current_dataset_test.py b/sdk/tests/apis/model_current_dataset_test.py
@@ -461,14 +461,69 @@ def test_regression_data_quality_ok(self):
             body="""{
                     "datetime": "something_not_used",
                     "jobStatus": "SUCCEEDED",
-                    "dataQuality": {}
+                    "dataQuality": {
+                        "n_observations":731,
+                        "target_metrics": {
+                          "max":3410.0,
+                          "min":2.0,
+                          "std":686.62,
+                          "mean":848.17,
+                          "type":"numerical",
+                          "histogram":{
+                             "buckets":[2.0, 342.8, 683.6, 1024.4],
+                             "reference_values":[204, 144, 165, 89],
+                             "current_values":[123, 231, 122, 89]
+                          },
+                          "feature_name":"ground_truth",
+                          "missing_value":{"count":0, "percentage":0.0},
+                          "median_metrics":{"median":713.0, "perc_25":315.0, "perc_75":1097.0}
+                        },
+                    "featureMetrics": [
+                          {
+                             "max":731.0,
+                             "min":1.0,
+                             "std":211.16,
+                             "mean":366.0,
+                             "type":"numerical",
+                             "histogram":{
+                                "buckets":[1.0, 74.0, 147.0, 220.0],
+                                "reference_values":[73, 73, 73, 73],
+                                "current_values":[73, 73, 73, 73]
+                             },
+                             "feature_name":"instant",
+                             "missing_value":{"count":0, "percentage":0.0},
+                             "median_metrics":{"median":366.0, "perc_25":183.5, "perc_75":548.5},
+                             "class_median_metrics":[]
+                          },
+                          {
+                             "max":4.0,
+                             "min":1.0,
+                             "std":1.11,
+                             "mean":2.49,
+                             "type":"numerical",
+                             "histogram":{
+                                "buckets":[1.0, 1.3, 1.6, 1.9],
+                                "reference_values":[181, 0, 0, 184],
+                                "current_values":[123, 0, 0, 212]
+                             },
+                             "feature_name":"season",
+                             "missing_value":{"count":0, "percentage":0.0},
+                             "median_metrics":{"median":3.0, "perc_25":2.0, "perc_75":3.0},
+                             "class_median_metrics":[]
+                          }
+                        ]
+                    }
                 }""",
         )
 
         metrics = model_current_dataset.data_quality()
 
         assert isinstance(metrics, RegressionDataQuality)
-        # TODO: add asserts to properties
+        assert metrics.n_observations == 731
+        assert metrics.target_metrics.feature_name == 'ground_truth'
+        assert metrics.target_metrics.median_metrics.median == 713.0
+        assert metrics.feature_metrics[0].max == 731.0
+        assert len(metrics.feature_metrics) == 2
         assert model_current_dataset.status() == JobStatus.SUCCEEDED
 
     @responses.activate

diff --git a/sdk/tests/apis/model_reference_dataset_test.py b/sdk/tests/apis/model_reference_dataset_test.py
@@ -639,16 +639,68 @@ def test_regression_data_quality_ok(self):
             url=f'{base_url}/api/models/{str(model_id)}/reference/data-quality',
             status=200,
             body="""{
-                    "datetime": "something_not_used",
-                    "jobStatus": "SUCCEEDED",
-                    "dataQuality": {}
-                }""",
+                                "datetime": "something_not_used",
+                                "jobStatus": "SUCCEEDED",
+                                "dataQuality": {
+                                    "n_observations":731,
+                                    "target_metrics": {
+                                      "max":3410.0,
+                                      "min":2.0,
+                                      "std":686.62,
+                                      "mean":848.17,
+                                      "type":"numerical",
+                                      "histogram":{
+                                         "buckets":[2.0, 342.8, 683.6, 1024.4],
+                                         "reference_values":[204, 144, 165, 89]
+                                      },
+                                      "feature_name":"ground_truth",
+                                      "missing_value":{"count":0, "percentage":0.0},
+                                      "median_metrics":{"median":713.0, "perc_25":315.0, "perc_75":1097.0}
+                                    },
+                                "featureMetrics": [
+                                      {
+                                         "max":731.0,
+                                         "min":1.0,
+                                         "std":211.16,
+                                         "mean":366.0,
+                                         "type":"numerical",
+                                         "histogram":{
+                                            "buckets":[1.0, 74.0, 147.0, 220.0],
+                                            "reference_values":[73, 73, 73, 73]
+                                         },
+                                         "feature_name":"instant",
+                                         "missing_value":{"count":0, "percentage":0.0},
+                                         "median_metrics":{"median":366.0, "perc_25":183.5, "perc_75":548.5},
+                                         "class_median_metrics":[]
+                                      },
+                                      {
+                                         "max":4.0,
+                                         "min":1.0,
+                                         "std":1.11,
+                                         "mean":2.49,
+                                         "type":"numerical",
+                                         "histogram":{
+                                            "buckets":[1.0, 1.3, 1.6, 1.9],
+                                            "reference_values":[181, 0, 0, 184]
+                                         },
+                                         "feature_name":"season",
+                                         "missing_value":{"count":0, "percentage":0.0},
+                                         "median_metrics":{"median":3.0, "perc_25":2.0, "perc_75":3.0},
+                                         "class_median_metrics":[]
+                                      }
+                                    ]
+                                }
+                            }""",
         )
 
         metrics = model_reference_dataset.data_quality()
 
         assert isinstance(metrics, RegressionDataQuality)
-        # TODO: add asserts to properties
+        assert metrics.n_observations == 731
+        assert metrics.target_metrics.feature_name == 'ground_truth'
+        assert metrics.target_metrics.median_metrics.median == 713.0
+        assert metrics.feature_metrics[0].max == 731.0
+        assert len(metrics.feature_metrics) == 2
         assert model_reference_dataset.status() == JobStatus.SUCCEEDED
 
     @responses.activate