fixes vocab bug for gpt; refer #8

ink-pad · ink-pad · commit 5a9e52ba4931 · 2021-03-28T22:41:35.000-04:00
diff --git a/README.md b/README.md
@@ -18,9 +18,9 @@ This repository provides the pytorch source code, and data for tabular transform
 
 (X) represents the versions which code is tested on.
 
-These can be installed using pip by running : 
+These can be installed using yaml by running : 
 ```
-pip install -r requirements.txt
+conda env create -f setup.yml
 ```
 ---
 
diff --git a/dataset/card.py b/dataset/card.py
@@ -239,7 +239,9 @@ def get_csv(self, fname):
         data = pd.read_csv(fname, nrows=self.nrows)
         if self.user_ids:
             log.info(f'Filtering data by user ids list: {self.user_ids}...')
+            self.user_ids = map(int, self.user_ids)
             data = data[data['User'].isin(self.user_ids)]
+
         self.nrows = data.shape[0]
         log.info(f"read data : {data.shape}")
         return data
diff --git a/main.py b/main.py
@@ -90,7 +90,7 @@ def main(args):
         tab_net = TabFormerGPT2(custom_special_tokens,
                              vocab=vocab,
                              field_ce=args.field_ce,
-                             flatten=args.flatten
+                             flatten=args.flatten,
                              )
 
     log.info(f"model initiated: {tab_net.model.__class__}")
diff --git a/models/modules.py b/models/modules.py
@@ -97,6 +97,7 @@ def get_model(self, field_ce, flatten):
         else:
             model = GPT2LMHeadModel(self.config)
         if not flatten:
-            tab_emb_config = ddict(ncols=self.ncols, vocab_size=len(self.vocab), hidden_size=self.config.hidden_size)
+            tab_emb_config = ddict(vocab_size=len(self.vocab), hidden_size=self.config.hidden_size)
             model = TabFormerBaseModel(model, TabFormerEmbeddings(tab_emb_config))
+
         return model
diff --git a/models/tabformer_gpt2.py b/models/tabformer_gpt2.py
@@ -46,7 +46,8 @@ def forward(
 
             seq_len = shift_logits.size(1)
             total_lm_loss = 0
-            field_names = self.vocab.get_field_keys(input_only=True, ignore_special=True)
+            field_names = self.vocab.get_field_keys(remove_target=True, ignore_special=True)
+
             for field_idx, field_name in enumerate(field_names):
                 col_ids = list(range(field_idx, seq_len, len(field_names)))
                 global_ids_field = self.vocab.get_field_ids(field_name)
diff --git a/requirements.txt b/requirements.txt
diff --git a/setup.yml b/setup.yml
@@ -0,0 +1,17 @@
+name: tabformer
+channels:
+  - anaconda
+  - pytorch
+  - huggingface
+  - conda-forge
+dependencies:
+  - python>=3.8
+  - pytorch=1.7.1=py3.8_cuda11.0.221_cudnn8.0.5_0
+  - torchvision
+  - pandas
+  - scikit-learn
+  - transformers
+  - numpy
+  - libgcc
+  - pip:
+      - transformers==3.2.0

Original file line number	Diff line number	Diff line change
`@@ -90,7 +90,7 @@ def main(args):`
`90`	`90`	`tab_net = TabFormerGPT2(custom_special_tokens,`
`91`	`91`	`vocab=vocab,`
`92`	`92`	`field_ce=args.field_ce,`
`93`		`- flatten=args.flatten`
	`93`	`+ flatten=args.flatten,`
`94`	`94`	`)`
`95`	`95`
`96`	`96`	`log.info(f"model initiated: {tab_net.model.__class__}")`