TorchText TH

A (beta version) Thai word segmentation library built on PyTorch

Usage

>>> from typing import List
>>> from torchtext_th.tokenizer import get_tokenizer
>>> tokenizer = get_tokenizer("artifact/emb150_bilstm512_1layer.pt")
>>>
>>> input_text: str = "ลองทดสอบโปรแกรมตัดคำด้วย PyTorch ง่ายๆ จร้าาาา ถถถ"
>>> output: List[str] = tokenizer.tokenize(input_text)
>>> print("|".join(output))
ลอง|ทดสอบ|โปรแกรม|ตัด|คำ|ด้วย| |PyTorch| |ง่าย|ๆ| |จร้าาาา| |ถถถ

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

TorchText TH

Usage

Files

README.md

Latest commit

History

README.md

File metadata and controls

TorchText TH

Usage