Merge pull request #163 from BIH-CEI/121-datafield-constructor-change-value_set

frehburg · web-flow · commit 8b934fe25722 · 2024-10-08T12:52:06.000+02:00
121 datafield constructor change value set
diff --git a/notebooks/erdri_cds_definition_in_code.ipynb b/notebooks/erdri_cds_definition_in_code.ipynb
@@ -522,37 +522,37 @@
     "    fields=(\n",
     "        # 1. Pseudonym\n",
     "        # 1.1. Pseudonym\n",
-    "        DataField(section=\"1. Pseudonym\", ordinal=\"1.1\", name=\"Pseudonym\", value_set=vs_1_1, required=True),\n",
+    "        DataField(section=\"1. Pseudonym\", ordinal=\"1.1\", name=\"Pseudonym\", viable_values=vs_1_1, required=True),\n",
     "\n",
     "        # 2. Personal information\n",
     "        # 2.1. Date of Birth\n",
-    "        DataField(section=\"2. Personal information\", ordinal=\"2.1\", name=\"Date of Birth\", value_set=vs_2_1, required=True),\n",
+    "        DataField(section=\"2. Personal information\", ordinal=\"2.1\", name=\"Date of Birth\", viable_values=vs_2_1, required=True),\n",
     "        # 2.2. Sex\n",
-    "        DataField(section=\"2. Personal information\", ordinal=\"2.2\", name=\"Sex\", value_set=vs_2_2, required=True),\n",
+    "        DataField(section=\"2. Personal information\", ordinal=\"2.2\", name=\"Sex\", viable_values=vs_2_2, required=True),\n",
     "        \n",
     "        # 3. Patient Status\n",
     "        # 3.1. Patient's status\n",
-    "        DataField(section=\"3. Patient Status\", ordinal=\"3.1\", name=\"Patient's status\", value_set=vs_3_1, required=True),\n",
+    "        DataField(section=\"3. Patient Status\", ordinal=\"3.1\", name=\"Patient's status\", viable_values=vs_3_1, required=True),\n",
     "        # 3.2. Date of death\n",
-    "        DataField(section=\"3. Patient Status\", ordinal=\"3.2\", name=\"Date of death\", value_set=vs_3_2, required=False),\n",
+    "        DataField(section=\"3. Patient Status\", ordinal=\"3.2\", name=\"Date of death\", viable_values=vs_3_2, required=False),\n",
     "        \n",
     "        # 4. Care Pathway\n",
     "        # 4.1. First contact with specialised centre\n",
-    "        DataField(section=\"4. Care Pathway\", ordinal=\"4.1\", name=\"First contact with specialised centre\", value_set=vs_4_1),\n",
+    "        DataField(section=\"4. Care Pathway\", ordinal=\"4.1\", name=\"First contact with specialised centre\", viable_values=vs_4_1),\n",
     "        \n",
     "        # 5. Disease history\n",
     "        # 5.1. Age at onset\n",
-    "        DataField(section=\"5. Disease history\", ordinal=\"5.1\", name=\"Age at onset\", value_set=vs_5_1),\n",
+    "        DataField(section=\"5. Disease history\", ordinal=\"5.1\", name=\"Age at onset\", viable_values=vs_5_1),\n",
     "        # 5.2. Age at diagnosis\n",
-    "        DataField(section=\"5. Disease history\", ordinal=\"5.2\", name=\"Age at diagnosis\", value_set=vs_5_2),\n",
+    "        DataField(section=\"5. Disease history\", ordinal=\"5.2\", name=\"Age at diagnosis\", viable_values=vs_5_2),\n",
     "        \n",
     "        # 6. Diagnosis\n",
     "        # 6.1. Diagnosis of the rare disease\n",
-    "        DataField(section=\"6. Diagnosis\", ordinal=\"6.1\", name=\"Diagnosis of the rare disease\", value_set=vs_6_1),\n",
+    "        DataField(section=\"6. Diagnosis\", ordinal=\"6.1\", name=\"Diagnosis of the rare disease\", viable_values=vs_6_1),\n",
     "        # 6.2. Genetic diagnosis\n",
-    "        DataField(section=\"6. Diagnosis\", ordinal=\"6.2\", name=\"Genetic diagnosis\", value_set=vs_6_2),\n",
+    "        DataField(section=\"6. Diagnosis\", ordinal=\"6.2\", name=\"Genetic diagnosis\", viable_values=vs_6_2),\n",
     "        # 6.3. Undiagnosed case\n",
-    "        DataField(section=\"6. Diagnosis\", ordinal=\"6.3\", name=\"Undiagnosed case\", value_set=vs_6_3),\n",
+    "        DataField(section=\"6. Diagnosis\", ordinal=\"6.3\", name=\"Undiagnosed case\", viable_values=vs_6_3),\n",
     "    )\n",
     ")"
    ],
diff --git a/notebooks/erdri_cds_from_file.ipynb b/notebooks/erdri_cds_from_file.ipynb
@@ -249,7 +249,7 @@
     "    # left side: fields of DataField class, right side: names of columns in data model definition file\n",
     "    DataField.name.__name__: 'data_field_name',\n",
     "    DataField.section.__name__: 'data_model_section',\n",
-    "    DataField.value_set.__name__: 'data_types',\n",
+    "    DataField.viable_values.__name__: 'data_types',\n",
     "    DataField.required.__name__: 'required',\n",
     "    DataField.specification.__name__: 'comment',\n",
     "    DataField.ordinal.__name__: ''  # if left empty such as here, the program will try to parse the ordinal from the file or leave it empty otherwise\n",
@@ -334,7 +334,8 @@
    "metadata": {
     "collapsed": false
    },
-   "id": "ced8854ebd3d48fb"
+   "id": "ced8854ebd3d48fb",
+   "execution_count": null
   }
  ],
  "metadata": {
diff --git a/src/phenopacket_mapper/data_standards/data_model.py b/src/phenopacket_mapper/data_standards/data_model.py
@@ -44,46 +44,54 @@ class DataField:
     If the `value_set` is a single type, it can be passed directly as the `value_set` parameter.
 
     e.g.:
-    >>> DataField(name="Field 1", value_set=int)
-    DataField(name='Field 1', value_set=ValueSet(elements=[<class 'int'>], name='', description=''), id='field_1', description='', section='', required=True, specification='', ordinal='')
+    >>> DataField(name="Field 1", specification=int)
+    DataField(name='Field 1', specification=ValueSet(elements=[<class 'int'>], name='', description=''), id='field_1', description='', section='', required=True, ordinal='')
 
     :ivar name: Name of the field
-    :ivar value_set: Value set of the field, if the value set is only one type, can also pass that type directly
+    :ivar specification: Value set of the field, if the value set is only one type, can also pass that type directly
     :ivar id: The identifier of the field, adhering to the naming rules stated above
     :ivar description: Description of the field
     :ivar section: Section of the field (Only applicable if the data model is divided into sections)
     :ivar required: Required flag of the field
-    :ivar specification: Text specification of the field (a description of the value set and field)
     :ivar ordinal: Ordinal of the field (E.g. 1.1, 1.2, 2.1, etc.)
     """
     name: str = field()
-    value_set: Union[ValueSet, type] = field()
+    specification: Union[ValueSet, type, List[type]] = field()
     id: str = field(default=None)
     description: str = field(default='')
     section: str = field(default='')
     required: bool = field(default=True)
-    specification: str = field(default='')
     ordinal: str = field(default='')
 
     def __post_init__(self):
         if not self.id:
             from phenopacket_mapper.utils import str_to_valid_id
             object.__setattr__(self, 'id', str_to_valid_id(self.name))
 
-        if isinstance(self.value_set, type):
-            object.__setattr__(self, 'value_set', ValueSet(elements=[self.value_set]))
+        if isinstance(self.specification, type):
+            object.__setattr__(self, 'specification', ValueSet(elements=[self.specification]))
+        if isinstance(self.specification, list):
+            if all(isinstance(e, type) for e in self.specification):
+                object.__setattr__(self, 'specification', ValueSet(elements=self.specification))
 
     def __str__(self):
         ret = "DataField(\n"
         ret += f"\t\tid: {self.id},\n"
         ret += f"\t\tsection: {self.section},\n"
         ret += f"\t\tordinal, name: ({self.ordinal},  {self.name}),\n"
-        ret += f"\t\tvalue_set: {self.value_set}, required: {self.required},\n"
+        ret += f"\t\tvalue_set: {self.specification}, required: {self.required},\n"
         ret += f"\t\tspecification: {self.specification}\n"
         ret += "\t)"
         return ret
 
 
+    def __eq__(self, other):
+        if not isinstance(other, DataField):
+            return False
+        return (self.id == other.id and self.specification == other.specification
+                and self.required == other.required)
+
+
 @dataclass(slots=True)
 class DataFieldValue:
     """This class defines the value of a `DataField` in a `DataModelInstance`
@@ -109,13 +117,13 @@ def validate(self) -> bool:
         if self.field.required and self.value is None:  # no value
             warnings.warn(f"Field {self.field.name} is required but has no value")
             return False
-        elif self.value is not None and self.field.value_set:
-            if Any in self.field.value_set:  # value set allows any
+        elif self.value is not None and self.field.specification:
+            if Any in self.field.specification:  # value set allows any
                 return True
-            elif self.value in self.field.value_set:  # raw value (likely a primitive) is in the value set
+            elif self.value in self.field.specification:  # raw value (likely a primitive) is in the value set
                 return True
             else:  # check if the value matches one of the types in the value set
-                for e in self.field.value_set:
+                for e in self.field.specification:
                     if isinstance(e, type):
                         cur_type = e
                         if cur_type is type(self.value):
@@ -142,9 +150,9 @@ class DataModel:
     be accessed using the `id` as an attribute of the `DataModel` object. E.g.: `data_model.date_of_birth`. This is
     useful in the data reading and mapping processes.
 
-    >>> data_model = DataModel("Test data model", (DataField(name="Field 1", value_set=ValueSet()),))
+    >>> data_model = DataModel("Test data model", (DataField(name="Field 1", specification=ValueSet()),))
     >>> data_model.field_1
-    DataField(name='Field 1', value_set=ValueSet(elements=[], name='', description=''), id='field_1', description='', section='', required=True, specification='', ordinal='')
+    DataField(name='Field 1', specification=ValueSet(elements=[], name='', description=''), id='field_1', description='', section='', required=True, ordinal='')
 
     :ivar data_model_name: Name of the data model
     :ivar fields: List of `DataField` objects
@@ -245,7 +253,7 @@ def from_file(
                 DataField.name.__name__: 'data_field_name',
                 DataField.section.__name__: 'data_model_section',
                 DataField.description.__name__: 'description',
-                DataField.value_set.__name__: 'value_set',
+                DataField.specification.__name__: 'value_set',
                 DataField.required.__name__: 'required',
                 DataField.specification.__name__: 'specification',
                 DataField.ordinal.__name__: 'ordinal'
@@ -474,3 +482,8 @@ def head(self, n: int = 5):
             return self.data_frame.head(n)
         else:
             warnings.warn("No data frame object available for this dataset")
+
+
+if __name__ == "__main__":
+    df = DataField(name="Field 1", specification=int)
+    print(df.specification == ValueSet([int]))
diff --git a/src/phenopacket_mapper/pipeline/input.py b/src/phenopacket_mapper/pipeline/input.py
@@ -24,9 +24,8 @@ def read_data_model(
             DataField.name.__name__: 'data_field_name',
             DataField.section.__name__: 'data_model_section',
             DataField.description.__name__: 'description',
-            DataField.value_set.__name__: 'value_set',
+            DataField.specification.__name__: 'value_set',
             DataField.required.__name__: 'required',
-            DataField.specification.__name__: 'specification',
             DataField.ordinal.__name__: 'ordinal'
         }),
         parse_value_sets: bool = False,
@@ -98,23 +97,21 @@ def remove_line_breaks_if_not_none(value):
     for i in range(len(df)):
         data_field_name = loc_default(df, row_index=i, column_name=column_names.get(DataField.name.__name__, ''))
         section = loc_default(df, row_index=i, column_name=column_names.get(DataField.section.__name__, ''))
-        value_set = loc_default(df, row_index=i, column_name=column_names.get(DataField.value_set.__name__, ''))
+        value_set = loc_default(df, row_index=i, column_name=column_names.get(DataField.specification.__name__, ''))
         description = loc_default(df, row_index=i, column_name=column_names.get(DataField.description.__name__, ''))
         required = bool(loc_default(df, row_index=i, column_name=column_names.get(DataField.required.__name__, '')))
-        specification = loc_default(df, row_index=i, column_name=column_names.get(DataField.specification.__name__, ''))
         ordinal = loc_default(df, row_index=i, column_name=column_names.get(DataField.ordinal.__name__, ''))
 
         if remove_line_breaks:
             data_field_name = remove_line_breaks_if_not_none(data_field_name)
             section = remove_line_breaks_if_not_none(section)
             description = remove_line_breaks_if_not_none(description)
-            specification = remove_line_breaks_if_not_none(specification)
 
         if parse_ordinals:
             ordinal, data_field_name = parse_ordinal(data_field_name)
 
         if parse_value_sets:
-            if not column_names.get(DataField.value_set.__name__, ''):
+            if not column_names.get(DataField.specification.__name__, ''):
                 raise ValueError("Value set column name must be provided to parse value sets.")
 
             value_set = parsing.parse_value_set(
@@ -127,10 +124,9 @@ def remove_line_breaks_if_not_none(value):
             DataField(
                 name=data_field_name,
                 section=section,
-                value_set=value_set,
+                specification=value_set,
                 description=description,
                 required=required,
-                specification=specification,
                 ordinal=ordinal
             ),
         )
diff --git a/tests/data_standards/data_models/test_data_field.py b/tests/data_standards/data_models/test_data_field.py
@@ -0,0 +1,16 @@
+import pytest
+
+from phenopacket_mapper.data_standards import ValueSet
+from phenopacket_mapper.data_standards import DataField
+
+@pytest.fixture
+def name():
+    return "name"
+
+@pytest.mark.parametrize("viable_values, expected", [
+    (str, ValueSet([str])),
+    ([str, int], ValueSet([str, int])),
+    (ValueSet([str, int]), ValueSet([str, int])),
+])
+def test_data_field_constructor(name, viable_values, expected):
+    assert DataField(name=name, specification=viable_values).specification.elements == expected.elements
diff --git a/tests/data_standards/data_models/test_data_model.py b/tests/data_standards/data_models/test_data_model.py
@@ -7,9 +7,9 @@
 @pytest.fixture
 def data_model():
     return DataModel(resources=[], data_model_name='test_data_model', fields=(
-        DataField(name='Field 0', value_set=ValueSet()),
-        DataField(name='Date of Birth', value_set=ValueSet()),
-        DataField(name='%^&#12pseudonym!2', value_set=ValueSet()),
+        DataField(name='Field 0', specification=ValueSet()),
+        DataField(name='Date of Birth', specification=ValueSet()),
+        DataField(name='%^&#12pseudonym!2', specification=ValueSet()),
     ))