dataspot
diff --git a/‎LICENSE
+1-1 b/‎LICENSE
+1-1
diff --git a/‎dgp/core/base_enricher.py
+151 b/‎dgp/core/base_enricher.py
+151
diff --git a/‎dgp/core/context.py
+10-4 b/‎dgp/core/context.py
+10-4
diff --git a/‎dgp/genera/consts.py
+2 b/‎dgp/genera/consts.py
+2
diff --git a/‎dgp/genera/enrich/__init__.py
+1 b/‎dgp/genera/enrich/__init__.py
+1
diff --git a/‎dgp/genera/enrich/enricher.py
+17 b/‎dgp/genera/enrich/enricher.py
+17
diff --git a/‎dgp/genera/load/analyzers/file_format/xls_format.py
+2-1 b/‎dgp/genera/load/analyzers/file_format/xls_format.py
+2-1
diff --git a/‎dgp/genera/load/loader.py
+9-10 b/‎dgp/genera/load/loader.py
+9-10
diff --git a/‎dgp/genera/simple.py
+9-2 b/‎dgp/genera/simple.py
+9-2
@@ -1,6 +1,6 @@
 MIT License
 
-Copyright (c) 2019 Adam Kariv, Viderum Inc.
+Copyright (c) 2019 Adam Kariv
 
 Permission is hereby granted, free of charge, to any person obtaining a copy
 of this software and associated documentation files (the "Software"), to deal
 
@@ -0,0 +1,151 @@
+from hashlib import md5
+
+from dataflows import Flow, PackageWrapper
+from dataflows import load, concatenate, join, set_type, checkpoint,\
+                      dump_to_path
+
+from .config import Config
+from .context import Context
+from ..genera.consts import CONFIG_MODEL_MAPPING, RESOURCE_NAME
+
+
+class BaseEnricher:
+
+    def __init__(self, config: Config):
+        self.config = config
+        self.prepare()
+
+    def prepare(self):
+        pass
+
+    def test(self):
+        return False
+
+    def preflow(self):
+        return None
+
+    def postflow(self):
+        return None
+
+
+class ColumnTypeTester(BaseEnricher):
+
+    # REQUIRED_COLUMN_TYPES = []
+    # PROHIBITED_COLUMN_TYPES = []
+
+    def test(self):
+        all_cts = [
+            x['columnType'] 
+            for x in self.config.get(CONFIG_MODEL_MAPPING)
+            if 'columnType' in x
+        ]
+        if not all(x in all_cts for x in self.REQUIRED_COLUMN_TYPES):
+            return False
+        if any(x in all_cts for x in self.PROHIBITED_COLUMN_TYPES):
+            return False
+        return True
+
+
+def rename_last_resource(name):
+
+    def func(package: PackageWrapper):
+        package.pkg.descriptor['resources'][-1]['name'] = name
+        num_resources = len(package.pkg.descriptor['resources'])
+
+        yield package.pkg
+
+        for i, res in enumerate(iter(package)):
+            if i == (num_resources - 1):
+                yield res.it
+            else:
+                yield res
+
+    return func
+
+
+class DatapackageJoiner(BaseEnricher):
+
+    # REF_DATAPACKAGE = ''
+    # REF_KEY_FIELDS = ['']
+    # REF_FETCH_FIELDS = ['']
+    # SOURCE_KEY_FIELDS = ['']
+    # TARGET_FIELD_COLUMNTYPES = ['']
+
+    def prepare(self):
+        self.ref_hash = md5(self.REF_DATAPACKAGE.encode('utf8')).hexdigest()
+        self.key = self.__class__.__name__
+
+        Flow(load(self.REF_DATAPACKAGE),
+             rename_last_resource(self.ref_hash),
+             dump_to_path('.enrichments/{}'.format(self.ref_hash)),
+             checkpoint(self.ref_hash)).process()
+        print('DONE PREPARING', self.key)
+
+    def preflow(self):
+        f = Flow(
+            load('.enrichments/{}/datapackage.json'.format(self.ref_hash)),
+            concatenate(
+                fields=dict(
+                    (f, [])
+                    for f in self.REF_KEY_FIELDS + self.REF_FETCH_FIELDS
+                ),
+                target=dict(
+                    name=self.key,
+                    path=self.key+'.csv'
+                ),
+                resources=self.ref_hash
+            ),
+        )
+        return f
+
+    def postflow(self):
+        target_field_names = [ct.replace(':', '-') for ct in self.TARGET_FIELD_COLUMNTYPES]
+        steps = [
+            join(
+                self.key, self.REF_KEY_FIELDS,
+                RESOURCE_NAME, self.SOURCE_KEY_FIELDS,
+                dict(
+                    (
+                        target_field_name, 
+                        dict(name=fetch_field)
+                    )
+                    for target_field_name, fetch_field
+                    in zip(target_field_names, self.REF_FETCH_FIELDS)
+                )
+            ),
+        ]
+        steps.extend([
+            set_type(target_field_name,
+                     resources=RESOURCE_NAME,
+                     columnType=target_field_columntype)
+            for target_field_name, target_field_columntype
+            in zip(target_field_names, self.TARGET_FIELD_COLUMNTYPES)
+        ])
+        f = Flow(*steps)
+        return f
+
+
+def enrichments_flow(config: Config, context: Context, *classes):
+    active_enrichments = [e(config) for e in classes]
+    active_enrichments = [e for e in active_enrichments if e.test()]
+
+    steps = []
+
+    for e in active_enrichments:
+        f = e.preflow()
+        if f:
+            steps.append(f)
+
+    steps.extend([
+        load(context.enricher_dir),
+    ])
+
+    for e in active_enrichments:
+        f = e.postflow()
+        if f:
+            steps.append(f)
+
+    f = Flow(
+        *steps
+    )
+    return f
@@ -3,13 +3,13 @@
 import logging
 
 from .config import Config
-from ..genera.consts import CONFIG_SKIP_ROWS
-from ..taxonomies import TaxonomyRegistry
+from ..genera.consts import CONFIG_SKIP_ROWS, CONFIG_TAXONOMY_ID
+from ..taxonomies import TaxonomyRegistry, Taxonomy
 
 
 def trimmer(extended_rows):
     for row_number, headers, row in extended_rows:
-        if headers is not None:
+        if headers:
             row = row[:len(headers)]
             if len(row) < len(headers):
                 continue
@@ -22,12 +22,13 @@ def __init__(self, config: Config, taxonomies: TaxonomyRegistry):
         self.config = config
         self.taxonomies: TaxonomyRegistry = taxonomies
         self._stream = None
+        self.enricher_dir = None
 
     def _structure_params(self):
         skip_rows = self.config.get(CONFIG_SKIP_ROWS) if CONFIG_SKIP_ROWS in self.config else None
         return dict(
             headers=skip_rows + 1 if skip_rows is not None else None,
-            ignore_blank_headers=(skip_rows or 0) > 0,  # Temporary hack as tabulator is kind of limited here
+            ignore_blank_headers=True, #(skip_rows or 0) > 0,  # Temporary hack as tabulator is kind of limited here
             post_parse=[trimmer]
         )
 
@@ -45,3 +46,8 @@ def stream(self):
                 logging.exception('Failed to open URL')
                 raise
         return self._stream
+
+    @property
+    def taxonomy(self) -> Taxonomy:
+        if CONFIG_TAXONOMY_ID in self.config:
+            return self.taxonomies.get(self.config[CONFIG_TAXONOMY_ID])
@@ -1,3 +1,5 @@
+RESOURCE_NAME        = 'out'
+
 CONFIG_URL           = 'source.path'
 CONFIG_FORMAT        = 'source.format'
 CONFIG_FORMAT_       = (CONFIG_FORMAT, 'File Format')
 
@@ -0,0 +1 @@
+from .enricher import EnricherDGP
@@ -0,0 +1,17 @@
+from dataflows import Flow, dump_to_path
+
+from ...core import BaseDataGenusProcessor
+from ..consts import CONFIG_URL
+
+
+class EnricherDGP(BaseDataGenusProcessor):
+
+    def preflow(self):
+
+    def flow(self):
+        config_hash = self.config._calc_hash(CONFIG_URL)
+        enricher_dir = '.enrichments/{}'.format(config_hash)
+        self.context.enricher_dir = '{}/datapackage.json'.format(enricher_dir)
+        return Flow(
+            dump_to_path(enricher_dir),
+        )
@@ -10,5 +10,6 @@ class XLSFormatAnalyzer(BaseAnalyzer):
 
     def run(self):
         if self.config[CONFIG_FORMAT].startswith('xls'):
-            self.config[CONFIG_SHEET] = 0
+            self.config.setdefault(CONFIG_SHEET, 0)
             self.config[CONFIG_FORCE_STRINGS] = True
+            
@@ -1,17 +1,17 @@
-from dataflows import Flow, load, printer, checkpoint, \
-    dump_to_path, stream, PackageWrapper
+from dataflows import Flow, load, PackageWrapper
 
 from ...core import BaseDataGenusProcessor, Required, Validator
 from .analyzers import FileFormatDGP, StructureDGP
-from ..consts import *
+from ..consts import CONFIG_URL, CONFIG_MODEL_EXTRA_FIELDS, CONFIG_TAXONOMY_CT,\
+    CONFIG_MODEL_MAPPING, CONFIG_TAXONOMY_ID, RESOURCE_NAME
 
 
 class LoaderDGP(BaseDataGenusProcessor):
 
     PRE_CHECKS = Validator(
         Required(CONFIG_URL, 'Source data URL or path')
     )
-    
+
     def init(self):
         self.steps = self.init_classes([
             FileFormatDGP,
@@ -26,7 +26,7 @@ def func(package: PackageWrapper):
             columnTypes = self.config[CONFIG_TAXONOMY_CT]
             descriptor['columnTypes'] = columnTypes
 
-            resource = descriptor['resources'][0]
+            resource = descriptor['resources'][-1]
             resource['path'] = 'out.csv'
             resource['format'] = 'csv'
             resource['mediatype'] = 'text/csv'
@@ -41,7 +41,7 @@ def func(package: PackageWrapper):
             if self.config[CONFIG_MODEL_EXTRA_FIELDS]:
                 for kind, field, *value in self.config[CONFIG_MODEL_EXTRA_FIELDS]:
                     for entry in self.config[CONFIG_MODEL_MAPPING]:
-                        if entry['name'] == field: 
+                        if entry['name'] == field:
                             if kind == 'constant':
                                 entry['constant'] = value[0]
                             elif kind == 'normalize':
@@ -70,7 +70,7 @@ def func(package: PackageWrapper):
             # Our own additions
             descriptor['taxonomyId'] = self.config[CONFIG_TAXONOMY_ID]
 
-            yield package.pkg        
+            yield package.pkg
             yield from package
 
         return func
@@ -80,9 +80,8 @@ def flow(self):
             structure_params = self.context._structure_params()
             source = self.config._unflatten()['source']
             return Flow(
-                load(source.pop('path'), validate=False, **source, **structure_params),
+                load(source.pop('path'), validate=False, name=RESOURCE_NAME, 
+                     **source, **structure_params),
                 # printer(),
                 self.create_fdp(),
             )
-
-        
@@ -3,18 +3,24 @@
 from ..core import BaseDataGenusProcessor
 from .load import LoaderDGP
 from .transform import TransformDGP
+from .enrich import EnricherDGP
 
 
 class SimpleDGP(BaseDataGenusProcessor):
 
-    def init(self, post_load_flow=None, post_transform_flow=None):
+    def init(self,
+             post_load_flow=None,
+             post_transform_flow=None):
+
         self.steps = self.init_classes([
             LoaderDGP,
             TransformDGP,
+            EnricherDGP,
         ])
         self.post_flows = [
             post_load_flow,
             post_transform_flow,
+            None
         ]
 
     def flow(self):
@@ -26,5 +32,6 @@ def flow(self):
                 flow = self.post_flows[i]
                 if flow:
                     flows.append(flow)
+            else:
+                break
         return Flow(*flows)
-
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+RESOURCE_NAME = 'out'`
	`2`	`+`
`1`	`3`	`CONFIG_URL = 'source.path'`
`2`	`4`	`CONFIG_FORMAT = 'source.format'`
`3`	`5`	`CONFIG_FORMAT_ = (CONFIG_FORMAT, 'File Format')`