Added multi-language support to the tokenizer

shankeleven · shankeleven · commit dd63ea58eca4 · 2025-08-04T04:25:12.000+05:30
Signed-off-by: shankeleven &lt;shashanksati11@gmail.com&gt;
diff --git a/langextract/chunking.py b/langextract/chunking.py
@@ -22,10 +22,10 @@
 
 from collections.abc import Iterable, Iterator, Sequence
 import dataclasses
-import re
 
 from absl import logging
 import more_itertools
+import regex as re
 
 from langextract import data
 from langextract import exceptions
diff --git a/langextract/tokenizer.py b/langextract/tokenizer.py
@@ -26,9 +26,9 @@
 from collections.abc import Sequence, Set
 import dataclasses
 import enum
-import re
 
 from absl import logging
+import regex as re
 
 from langextract import exceptions
 
@@ -133,11 +133,11 @@ class TokenizedText:
 
 
 # Regex patterns for tokenization.
-_LETTERS_PATTERN = r"[A-Za-z]+"
-_DIGITS_PATTERN = r"[0-9]+"
-_SYMBOLS_PATTERN = r"[^A-Za-z0-9\s]+"
+_LETTERS_PATTERN = r"\p{L}+"
+_DIGITS_PATTERN = r"\p{N}+"
+_SYMBOLS_PATTERN = r"[^\p{L}\p{N}\s]+"
 _END_OF_SENTENCE_PATTERN = re.compile(r"[.?!]$")
-_SLASH_ABBREV_PATTERN = r"[A-Za-z0-9]+(?:/[A-Za-z0-9]+)+"
+_SLASH_ABBREV_PATTERN = r"(?:{_LETTERS_PATTERN}|{_DIGITS_PATTERN})(?:/(?:{_LETTERS_PATTERN}|{_DIGITS_PATTERN}))+"
 
 _TOKEN_PATTERN = re.compile(
     rf"{_SLASH_ABBREV_PATTERN}|{_LETTERS_PATTERN}|{_DIGITS_PATTERN}|{_SYMBOLS_PATTERN}"
diff --git a/pyproject.toml b/pyproject.toml
@@ -40,6 +40,7 @@ dependencies = [
     "pydantic>=1.8.0",
     "python-dotenv>=0.19.0",
     "PyYAML>=6.0",
+    "regex>=2022.1.18"
     "requests>=2.25.0",
     "tqdm>=4.64.0",
     "typing-extensions>=4.0.0"
diff --git a/tests/chunking_test.py b/tests/chunking_test.py
@@ -307,25 +307,25 @@ class BatchingTest(parameterized.TestCase):
               ),
               chunking.TextChunk(
                   token_interval=tokenizer.TokenInterval(
-                      start_index=7, end_index=8
+                      start_index=7, end_index=10
                   ),
                   document=_SAMPLE_DOCUMENT,
               ),
               chunking.TextChunk(
                   token_interval=tokenizer.TokenInterval(
-                      start_index=8, end_index=12
+                      start_index=10, end_index=14
                   ),
                   document=_SAMPLE_DOCUMENT,
               ),
               chunking.TextChunk(
                   token_interval=tokenizer.TokenInterval(
-                      start_index=12, end_index=17
+                      start_index=14, end_index=19
                   ),
                   document=_SAMPLE_DOCUMENT,
               ),
               chunking.TextChunk(
                   token_interval=tokenizer.TokenInterval(
-                      start_index=17, end_index=20
+                      start_index=19, end_index=22
                   ),
                   document=_SAMPLE_DOCUMENT,
               ),
diff --git a/tests/tokenizer_test.py b/tests/tokenizer_test.py
@@ -35,7 +35,7 @@ def assertTokenListEqual(self, actual_tokens, expected_tokens, msg=None):
           token_type=actual.token_type,
           first_token_after_newline=actual.first_token_after_newline,
       )
-      self.assertDataclassEqual(
+      self.assertEqual(
           expected,
           actual,
           msg=f"Token mismatch at index {i}",
@@ -117,6 +117,166 @@ def assertTokenListEqual(self, actual_tokens, expected_tokens, msg=None):
           input_text="",
           expected_tokens=[],
       ),
+      dict(
+          testcase_name="numbers_with_slash",
+          input_text="Patient BP was 120/80 mmHg.",
+          expected_tokens=[
+              tokenizer.Token(index=0, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(index=1, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(index=2, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(index=3, token_type=tokenizer.TokenType.NUMBER),
+              tokenizer.Token(
+                  index=4, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=5, token_type=tokenizer.TokenType.NUMBER),
+              tokenizer.Token(index=6, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=7, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+          ],
+      ),
+      dict(
+          testcase_name="decimals_and_alphanum_units",
+          input_text="Temp 98.6°F and dosage 50mg daily.",
+          expected_tokens=[
+              tokenizer.Token(
+                  index=0, token_type=tokenizer.TokenType.WORD
+              ),  # Temp
+              tokenizer.Token(
+                  index=1, token_type=tokenizer.TokenType.NUMBER
+              ),  # 98
+              tokenizer.Token(
+                  index=2, token_type=tokenizer.TokenType.PUNCTUATION
+              ),  # .
+              tokenizer.Token(
+                  index=3, token_type=tokenizer.TokenType.NUMBER
+              ),  # 6
+              tokenizer.Token(
+                  index=4, token_type=tokenizer.TokenType.PUNCTUATION
+              ),  # °
+              tokenizer.Token(
+                  index=5, token_type=tokenizer.TokenType.WORD
+              ),  # F
+              tokenizer.Token(
+                  index=6, token_type=tokenizer.TokenType.WORD
+              ),  # and
+              tokenizer.Token(
+                  index=7, token_type=tokenizer.TokenType.WORD
+              ),  # dosage
+              tokenizer.Token(
+                  index=8, token_type=tokenizer.TokenType.NUMBER
+              ),  # 50
+              tokenizer.Token(
+                  index=9, token_type=tokenizer.TokenType.WORD
+              ),  # mg
+              tokenizer.Token(
+                  index=10, token_type=tokenizer.TokenType.WORD
+              ),  # daily
+              tokenizer.Token(
+                  index=11, token_type=tokenizer.TokenType.PUNCTUATION
+              ),  # .
+          ],
+      ),
+      dict(
+          testcase_name="japanese_text",
+          input_text="これはテストです。",
+          expected_tokens=[
+              tokenizer.Token(index=0, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=1, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+          ],
+      ),
+      dict(
+          testcase_name="cjk_slash_abbreviation",
+          input_text="患者の血圧は120/80です。",
+          expected_tokens=[
+              tokenizer.Token(index=0, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(index=1, token_type=tokenizer.TokenType.NUMBER),
+              tokenizer.Token(
+                  index=2, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=3, token_type=tokenizer.TokenType.NUMBER),
+              tokenizer.Token(index=4, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=5, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+          ],
+      ),
+      dict(
+          testcase_name="devanagari_hindi_split",
+          input_text="नमस्ते दुनिया, मेरा स्कोर १००/१०० है।",
+          expected_tokens=[
+              tokenizer.Token(index=0, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=1, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=2, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=3, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=4, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=5, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=6, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=7, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=8, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=9, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=10, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=11, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=12, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=13, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=14, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=15, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=16, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=17, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=18, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(index=19, token_type=tokenizer.TokenType.NUMBER),
+              tokenizer.Token(
+                  index=20, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=21, token_type=tokenizer.TokenType.NUMBER),
+              tokenizer.Token(index=22, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=23, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+          ],
+      ),
+      dict(
+          testcase_name="arabic_text",
+          input_text="مرحبا بالعالم! درجة الحرارة ٢٥.٥ درجة.",
+          expected_tokens=[
+              tokenizer.Token(index=0, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(index=1, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=2, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=3, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(index=4, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(index=5, token_type=tokenizer.TokenType.NUMBER),
+              tokenizer.Token(
+                  index=6, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+              tokenizer.Token(index=7, token_type=tokenizer.TokenType.NUMBER),
+              tokenizer.Token(index=8, token_type=tokenizer.TokenType.WORD),
+              tokenizer.Token(
+                  index=9, token_type=tokenizer.TokenType.PUNCTUATION
+              ),
+          ],
+      ),
   )
   def test_tokenize_various_inputs(self, input_text, expected_tokens):
     tokenized = tokenizer.tokenize(input_text)
@@ -131,32 +291,20 @@ def test_first_token_after_newline_flag(self):
     tokenized = tokenizer.tokenize(input_text)
 
     expected_tokens = [
-        tokenizer.Token(
-            index=0,
-            token_type=tokenizer.TokenType.WORD,
-        ),
-        tokenizer.Token(
-            index=1,
-            token_type=tokenizer.TokenType.NUMBER,
-        ),
+        tokenizer.Token(index=0, token_type=tokenizer.TokenType.WORD),
+        tokenizer.Token(index=1, token_type=tokenizer.TokenType.NUMBER),
         tokenizer.Token(
             index=2,
             token_type=tokenizer.TokenType.WORD,
             first_token_after_newline=True,
         ),
-        tokenizer.Token(
-            index=3,
-            token_type=tokenizer.TokenType.NUMBER,
-        ),
+        tokenizer.Token(index=3, token_type=tokenizer.TokenType.NUMBER),
         tokenizer.Token(
             index=4,
             token_type=tokenizer.TokenType.WORD,
             first_token_after_newline=True,
         ),
-        tokenizer.Token(
-            index=5,
-            token_type=tokenizer.TokenType.NUMBER,
-        ),
+        tokenizer.Token(index=5, token_type=tokenizer.TokenType.NUMBER),
     ]
 
     self.assertTokenListEqual(
@@ -257,7 +405,7 @@ class SentenceRangeTest(parameterized.TestCase):
               Blood pressure was 160/90 and patient was recommended to
               Atenolol 50 mg daily."""),
           start_pos=0,
-          expected_interval=(0, 9),
+          expected_interval=(0, 11),
       ),
   )
   def test_partial_sentence_range(