dmis-lab
diff --git a/‎preprocess/README.md
Lines changed: 166 additions & 0 deletions b/‎preprocess/README.md
Lines changed: 166 additions & 0 deletions
diff --git a/‎preprocess/bc5cdr_preprocess.py
Lines changed: 19 additions & 106 deletions b/‎preprocess/bc5cdr_preprocess.py
Lines changed: 19 additions & 106 deletions
@@ -164,4 +164,170 @@ python ./query_preprocess.py \
     --resolve_composites \
     --lowercase true \
     --remove_punctuation true
+```
+
+## BC5CDR-Disease
+You can preprocess BC5CDR-Disease dataset from scratch.
+
+First, parse the raw `BC5CDR` data.
+The result will be `mentions (*.concept)` and `contexts (*.txt)` 
+```
+DATA_DIR=../datasets
+
+python ./bc5cdr_preprocess.py \
+    --input_file ${DATA_DIR}/raw/bc5cdr/CDR_TrainingSet.PubTator.txt \
+    --output_dir ${DATA_DIR}/bc5cdr-disease/train \
+    --type disease
+
+python ./bc5cdr_preprocess.py \
+    --input_file ${DATA_DIR}/raw/bc5cdr/CDR_DevelopmentSet.PubTator.txt \
+    --output_dir ${DATA_DIR}/bc5cdr-disease/dev \
+    --type disease
+
+python ./bc5cdr_preprocess.py \
+    --input_file ${DATA_DIR}/raw/bc5cdr/CDR_TestSet.PubTator.txt \
+    --output_dir ${DATA_DIR}/bc5cdr-disease/test \
+    --type disease
+```
+
+Second, apply the text preprocess to the train/dev/test dataset and their dictionaries
+```
+DATA_DIR=../datasets
+AB3P_PATH=../Ab3P/identify_abbr
+
+# preprocess trainset and its dictionary
+python dictionary_preprocess.py \
+    --input_dictionary_path ./resources/medic_06Jul2012.txt \
+    --output_dictionary_path ${DATA_DIR}/bc5cdr-disease/train_dictionary.txt \
+    --lowercase \
+    --remove_punctuation
+
+python ./query_preprocess.py \
+    --input_dir ${DATA_DIR}/bc5cdr-disease/train/ \
+    --output_dir ${DATA_DIR}/bc5cdr-disease/processed_train/ \
+    --dictionary_path ${DATA_DIR}/bc5cdr-disease/train_dictionary.txt \
+    --ab3p_path ${AB3P_PATH} \
+    --remove_cuiless \
+    --resolve_composites \
+    --lowercase true \
+    --remove_punctuation true
+
+# preprocess devset and its dictionary
+python dictionary_preprocess.py \
+    --input_dictionary_path ${DATA_DIR}/bc5cdr-disease/train_dictionary.txt \
+    --additional_data_dir ${DATA_DIR}/bc5cdr-disease/processed_train/ \
+    --output_dictionary_path ${DATA_DIR}/bc5cdr-disease/dev_dictionary.txt \
+    --lowercase \
+    --remove_punctuation
+
+python ./query_preprocess.py \
+    --input_dir ${DATA_DIR}/bc5cdr-disease/dev/ \
+    --output_dir ${DATA_DIR}/bc5cdr-disease/processed_dev/ \
+    --dictionary_path ${DATA_DIR}/bc5cdr-disease/dev_dictionary.txt \
+    --ab3p_path ${AB3P_PATH} \
+    --remove_cuiless \
+    --resolve_composites \
+    --lowercase true \
+    --remove_punctuation true
+
+# preprocess testset and its dictionary
+python dictionary_preprocess.py \
+    --input_dictionary_path ${DATA_DIR}/bc5cdr-disease/dev_dictionary.txt \
+    --additional_data_dir ${DATA_DIR}/bc5cdr-disease/processed_dev \
+    --output_dictionary_path ${DATA_DIR}/bc5cdr-disease/test_dictionary.txt \
+    --lowercase \
+    --remove_punctuation
+    
+python ./query_preprocess.py \
+    --input_dir ${DATA_DIR}/bc5cdr-disease/test/ \
+    --output_dir ${DATA_DIR}/bc5cdr-disease/processed_test/ \
+    --dictionary_path ${DATA_DIR}/bc5cdr-disease/test_dictionary.txt \
+    --ab3p_path ${AB3P_PATH} \
+    --remove_cuiless \
+    --resolve_composites \
+    --lowercase true \
+    --remove_punctuation true
+```
+
+## BC5CDR-Chemical
+You can preprocess BC5CDR-Chemical dataset from scratch.
+
+First, parse the raw `BC5CDR` data.
+The result will be `mentions (*.concept)` and `contexts (*.txt)` 
+```
+DATA_DIR=../datasets
+
+python ./bc5cdr_preprocess.py \
+    --input_file ${DATA_DIR}/raw/bc5cdr/CDR_TrainingSet.PubTator.txt \
+    --output_dir ${DATA_DIR}/bc5cdr-chemical/train \
+    --type chemical
+
+python ./bc5cdr_preprocess.py \
+    --input_file ${DATA_DIR}/raw/bc5cdr/CDR_DevelopmentSet.PubTator.txt \
+    --output_dir ${DATA_DIR}/bc5cdr-chemical/dev \
+    --type chemical
+
+python ./bc5cdr_preprocess.py \
+    --input_file ${DATA_DIR}/raw/bc5cdr/CDR_TestSet.PubTator.txt \
+    --output_dir ${DATA_DIR}/bc5cdr-chemical/test \
+    --type chemical
+```
+
+Second, apply the text preprocess to the train/dev/test dataset and their dictionaries
+```
+DATA_DIR=../datasets
+AB3P_PATH=../Ab3P/identify_abbr
+
+# preprocess trainset and its dictionary
+python dictionary_preprocess.py \
+    --input_dictionary_path ./resources/ctd_chemical_04Nov2019.txt \
+    --output_dictionary_path ${DATA_DIR}/bc5cdr-chemical/train_dictionary.txt \
+    --lowercase \
+    --remove_punctuation
+
+python ./query_preprocess.py \
+    --input_dir ${DATA_DIR}/bc5cdr-chemical/train/ \
+    --output_dir ${DATA_DIR}/bc5cdr-chemical/processed_train/ \
+    --dictionary_path ${DATA_DIR}/bc5cdr-chemical/train_dictionary.txt \
+    --ab3p_path ${AB3P_PATH} \
+    --remove_cuiless \
+    --resolve_composites \
+    --lowercase true \
+    --remove_punctuation true
+
+# preprocess devset and its dictionary
+python dictionary_preprocess.py \
+    --input_dictionary_path ${DATA_DIR}/bc5cdr-chemical/train_dictionary.txt \
+    --additional_data_dir ${DATA_DIR}/bc5cdr-chemical/processed_train/ \
+    --output_dictionary_path ${DATA_DIR}/bc5cdr-chemical/dev_dictionary.txt \
+    --lowercase \
+    --remove_punctuation
+
+python ./query_preprocess.py \
+    --input_dir ${DATA_DIR}/bc5cdr-chemical/dev/ \
+    --output_dir ${DATA_DIR}/bc5cdr-chemical/processed_dev/ \
+    --dictionary_path ${DATA_DIR}/bc5cdr-chemical/dev_dictionary.txt \
+    --ab3p_path ${AB3P_PATH} \
+    --remove_cuiless \
+    --resolve_composites \
+    --lowercase true \
+    --remove_punctuation true
+
+# preprocess testset and its dictionary
+python dictionary_preprocess.py \
+    --input_dictionary_path ${DATA_DIR}/bc5cdr-chemical/dev_dictionary.txt \
+    --additional_data_dir ${DATA_DIR}/bc5cdr-chemical/processed_dev \
+    --output_dictionary_path ${DATA_DIR}/bc5cdr-chemical/test_dictionary.txt \
+    --lowercase \
+    --remove_punctuation
+    
+python ./query_preprocess.py \
+    --input_dir ${DATA_DIR}/bc5cdr-chemical/test/ \
+    --output_dir ${DATA_DIR}/bc5cdr-chemical/processed_test/ \
+    --dictionary_path ${DATA_DIR}/bc5cdr-chemical/test_dictionary.txt \
+    --ab3p_path ${AB3P_PATH} \
+    --remove_cuiless \
+    --resolve_composites \
+    --lowercase true \
+    --remove_punctuation true
 ```
@@ -5,109 +5,13 @@
 """
 
 import os
-import pdb
-
-# input_files = [
-#     './datasets/raw/bc5cdr/CDR_TrainingSet.PubTator.txt',
-#     './datasets/raw/bc5cdr/CDR_DevelopmentSet.PubTator.txt',
-#     './datasets/raw/bc5cdr/CDR_TestSet.PubTator.txt',
-# ]
-
-# disease_output_dirs = [
-#     os.path.join('./datasets/bc5cdr-disease', 'train'),
-#     os.path.join('./datasets/bc5cdr-disease', 'dev'),
-#     os.path.join('./datasets/bc5cdr-disease', 'test'),
-# ]
-
-# chemical_output_dirs = [
-#     os.path.join('./datasets/bc5cdr-chemical', 'train'),
-#     os.path.join('./datasets/bc5cdr-chemical', 'dev'),
-#     os.path.join('./datasets/bc5cdr-chemical', 'test'),
-# ]
-
-for input_file, disease_output_dir, chemical_output_dir in zip(input_files, disease_output_dirs, chemical_output_dirs):
-    if not os.path.exists(disease_output_dir):
-        os.makedirs(disease_output_dir)
-    if not os.path.exists(chemical_output_dir):
-        os.makedirs(chemical_output_dir)
-        
-    with open(input_file, 'r') as f:
-        lines = f.readlines()
-    
-    
-    disease_queries = []
-    chemical_queries = []
-    pmids = []
-    lines = lines + ['\n']
-    num_docs = 0
-    num_disease_queries = 0
-    num_chemical_queries = 0
-    for line in lines:
-        line = line.strip()
-        if '|t|' in line:
-            title = line.split("|")[2]
-        elif '|a|' in line:
-            abstract = line.split("|")[2]
-        elif '\t' in line:
-            line = line.split("\t")
-            if len(line) == 6:
-                pmid, start, end, mention, _class, cui = line
-            elif len(line) == 4: # CID
-                continue
-            elif len(line) == 7: # Composite mention
-                pmid, start, end, mention, _class, cui, composite_mentions = line
-                if composite_mentions.count("|") == cui.count("|"):
-                    mention = composite_mentions
-            query = pmid + "||"+start +"|" + end + "||" + _class + "||" + mention + "||" + cui
-            if _class=="Chemical":
-                chemical_queries.append(query)
-            elif _class=="Disease":
-                disease_queries.append(query)
-        elif len(disease_queries) or len(chemical_queries): 
-            if pmid in pmids:
-                print(pmid)
-                disease_queries = []
-                chemical_queries = []
-                title = ""
-                abstract = ""
-                continue
-            context = title + "\n\n" + abstract + "\n"
-            
-            
-            # disease
-            disease_concept = "\n".join(disease_queries) + "\n"
-            output_context_file = os.path.join(disease_output_dir, "{}.txt".format(pmid))
-            output_concept_file = os.path.join(disease_output_dir, "{}.concept".format(pmid))
-            with open(output_context_file, 'w') as f:
-                f.write(context)
-            with open(output_concept_file, 'w') as f:
-                f.write(disease_concept)
-                
-            # chemical
-            chemical_concept = "\n".join(chemical_queries) + "\n"
-            output_context_file = os.path.join(chemical_output_dir, "{}.txt".format(pmid))
-            output_concept_file = os.path.join(chemical_output_dir, "{}.concept".format(pmid))
-            with open(output_context_file, 'w') as f:
-                f.write(context)
-            with open(output_concept_file, 'w') as f:
-                f.write(chemical_concept)
-                
-            num_docs +=1
-            num_chemical_queries += len(chemical_queries)
-            num_disease_queries += len(disease_queries)
-            pmids.append(pmid)
-            disease_queries = []
-            chemical_queries = []
-            title = ""
-            abstract = ""
-            # pdb.set_trace()
-    
-    print("{} {} {}".format(disease_output_dir, num_docs,num_disease_queries))
-    print("{} {} {}".format(chemical_output_dir, num_docs,num_chemical_queries))
+import argparse
+from tqdm import tqdm
 
 def main(args):
     input_file = args.input_file
     output_dir = args.output_dir
+    _type = args.type
 
     # create directory if it doesn't exist
     if not os.path.exists(output_dir):
@@ -116,13 +20,13 @@ def main(args):
     # read lines from raw file
     with open(input_file, 'r') as f:
         lines = f.readlines()
-        
+
     queries = []
     pmids = []
     lines = lines + ['\n']
     num_docs = 0
     num_queries = 0
-    for line in lines:
+    for line in tqdm(lines):
         line = line.strip()
         if '|t|' in line:
             title = line.split("|")[2]
@@ -132,25 +36,33 @@ def main(args):
             line = line.split("\t")
             if len(line) == 6:
                 pmid, start, end, mention, _class, cui = line
-            else:
-                raise NotImplementedError()
+            elif len(line) == 4: # CID
+                continue
+            elif len(line) == 7: # Composite mention
+                pmid, start, end, mention, _class, cui, composite_mentions = line
+                if composite_mentions.count("|") == cui.count("|"):
+                    mention = composite_mentions
             query = pmid + "||"+start +"|" + end + "||" + _class + "||" + mention + "||" + cui
-            queries.append(query)
+            if _class.lower()==_type.lower():
+                queries.append(query)
         elif len(queries): 
+            
             if pmid in pmids:
                 print(pmid)
                 queries = []
                 title = ""
                 abstract = ""
                 continue
             context = title + "\n\n" + abstract + "\n"
+            
             concept = "\n".join(queries) + "\n"
             output_context_file = os.path.join(output_dir, "{}.txt".format(pmid))
             output_concept_file = os.path.join(output_dir, "{}.concept".format(pmid))
             with open(output_context_file, 'w') as f:
                 f.write(context)
             with open(output_concept_file, 'w') as f:
                 f.write(concept)
+                
             num_docs +=1
             num_queries += len(queries)
             pmids.append(pmid)
@@ -163,11 +75,12 @@ def main(args):
 if __name__ == '__main__':
     parser = argparse.ArgumentParser()
     parser.add_argument('--input_file', type=str,
-                    default="./raw/ncbi-disease/NCBItrainset_corpus.txt",
+                    default="./raw/bc5cdr/CDR_TrainingSet.PubTator.txt",
                     help='path of input file')
     parser.add_argument('--output_dir', type=str,
-                    default="./ncbi-disease/train", 
+                    default="./bc5cdr-disease/train", 
                     help='path of output directionary')
+    parser.add_argument('--type', type=str, choices=["chemical", "disease"])
 
     args = parser.parse_args()