Add verbosity control to PTBTokenizer

PTBTokenizer logs tokenization details by default (ex. `PTBTokenizer tokenized 2 tokens at 33.87 tokens per second`). This becomes noisy when you have run tokenization iteratively. I redirect stderr to `subprocess.DEVNULL` to suppress this.
tylin · KaiKangSDU · Feb 5, 2018 · Feb 6, 2018 · Feb 6, 2018 · Feb 6, 2018
commit 38e309706960d8394b638515c21ad8febef63c44
diff --git a/tokenizer/ptbtokenizer.py b/tokenizer/ptbtokenizer.py
@@ -23,6 +23,8 @@
 
 class PTBTokenizer:
     """Python wrapper of Stanford PTBTokenizer"""
+    def __init__(self, verbose):
+        self.verbose = verbose
 
     def tokenize(self, captions_for_image):
         cmd = ['java', '-cp', STANFORD_CORENLP_3_4_1_JAR, \
@@ -48,8 +50,12 @@ def tokenize(self, captions_for_image):
         # tokenize sentence
         # ======================================================
         cmd.append(os.path.basename(tmp_file.name))
-        p_tokenizer = subprocess.Popen(cmd, cwd=path_to_jar_dirname, \
+        if verbose:
+            p_tokenizer = subprocess.Popen(cmd, cwd=path_to_jar_dirname, \
                 stdout=subprocess.PIPE)
+        else:
+            p_tokenizer = subprocess.Popen(cmd, cwd=path_to_jar_dirname, \
+                stdout=subprocess.PIPE, stderr=subprocess.DEVNULL)
         token_lines = p_tokenizer.communicate(input=sentences.rstrip())[0]
         token_lines = token_lines.decode()
         lines = token_lines.split('\n')