Skip to content

i3thuan5/KeSi

Folders and files

NameName
Last commit message
Last commit date
Aug 28, 2023
Sep 25, 2023
Jun 10, 2020
Dec 27, 2022
Feb 4, 2020
Jan 16, 2024
Dec 27, 2019
Feb 13, 2020
Sep 25, 2023
Aug 29, 2023
Feb 20, 2021
Sep 25, 2023
Sep 25, 2023

Repository files navigation

KeSi

PyPI version Build Status Quality Gate Status

Tâi-bûn NLP ke-si.

Tàu

pip install KeSi

Iōng

Ku, TuiBeTse, normalize_taibun, kam_haphuat, PIAUTIAM

Ku

分析台文,而且做書寫轉換。

class Ku(hanlo=None, lomaji=None)

建立台文ê句,做相關操作。 hanlo是主要ê台文,ē-tàng傳漢羅、全漢、全羅攏會用得。若台文有全羅對照,ē-tàng傳lomaji變數,kui-ê句會照lomaji來斷詞、標輕聲。若是hanlo kah lomaji字數bô-kâng,會傳TuiBeTse例外。

hanji

得tio̍h tshiâu過ê台文,有tshiâu khàng-pe̍h、Unicode NFC、教育部造字碼換做正式Unicode碼。其中若輕聲詞攏有輕聲符。

lomaji

得tio̍h tshiâu過ê羅馬字,有tshiâu khàng-pe̍h、Unicode NFC、教育部造字碼換做正式Unicode碼。其中若輕聲詞攏有輕聲符。

kiphanlo

得tio̍h tshiâu過ê台文,有tshiâu khàng-pe̍h、Unicode NFC、教育部造字碼換做正式Unicode碼。其中若輕聲詞頭字是漢字,袂有輕聲符。

KIP(), TL()

換做正式教育部羅馬字。

KIP數字調轉KIP:

>>> from kesi import Ku
>>> Ku("Gâu5-tsa2").KIP().hanlo
'Gâu-tsá'

POJ轉KIP:

>>> from kesi import Ku
>>> Ku("Gâu-chá").KIP().hanlo
'Gâu-tsá'

漢字、連字符、輕聲符lóng會好好留落來。

>>> from kesi import Ku
>>> Ku("看--起-來chiâⁿ媠。").KIP().hanlo
'看--起-來tsiânn媠。'

修改記錄:1.4.3版以前POJ轉KIP函式號做TL();1.5.0版以後改號做KIP(),tsit-má兩款函式lóng支援。未來KIP()會取代TL()。

POJ()

換做白話字。

KIP轉POJ:

>>> from kesi import Ku
>>> Ku("Gâu-tsá").POJ().hanlo
'Gâu-chá'

漢字、連字符、輕聲符lóng會好好留落來。

>>> from kesi import Ku
>>> Ku("看--起-來tsiânn媠。").POJ().hanlo
'看--起-來chiâⁿ媠。'

POJ數字調轉POJ:

>>> from kesi import Ku
>>> Ku("Gâu5-cha2").POJ().hanlo
'Gâu-chá'

iter()

回傳句內下底全部Suêiter

len()

回傳句內下底有幾ê Su

thianji()

回傳句內下底全部Jiêiter

class Su

hanji

得tio̍h tshiâu過ê台文。其中若輕聲詞攏有輕聲符。

lomaji

得tio̍h tshiâu過ê羅馬字。其中若輕聲詞攏有輕聲符。

kiphanlo

得tio̍h tshiâu過ê台文。其中若輕聲詞頭字是漢字,袂有輕聲符。

KIP(), TL()

換做正式教育部羅馬字。

修改記錄:1.4.3版以前POJ轉KIP函式號做TL();1.5.0版以後改號做KIP(),tsit-má兩款函式lóng支援。未來KIP()會取代TL()。

POJ()

換做白話字。

iter()

回傳句內下底全部Jiêiter

len()

回傳句內下底有幾ê Ji

class Ji

hanji

得tio̍h tshiâu過ê台文。其中若輕聲詞攏有輕聲符。

lomaji

得tio̍h tshiâu過ê羅馬字。其中若輕聲詞攏有輕聲符。

kiphanlo

得tio̍h tshiâu過ê台文。其中若輕聲詞頭字是漢字,袂有輕聲符。

KIP(), TL()

換做正式教育部羅馬字。

修改記錄:1.4.3版以前POJ轉KIP函式號做TL();1.5.0版以後改號做KIP(),tsit-má兩款函式lóng支援。未來KIP()會取代TL()。

POJ()

換做白話字。

class TuiBeTse

Ku(hanlo, lomaji)hanlo kah lomaji字數bô-kâng ê時,回傳ê例外。

def normalize_taibun(taibun)

有tshiâu Unicode NFC、教育部造字碼換做正式Unicode碼。

>>> from kesi import normalize_taibun
>>> normalize_taibun('a\u0301') == '\u00e1'
True
>>> normalize_taibun('\u00e1') == '\u00e1'
True

def kam_haphuat(tsit_ji_lomaji)

判斷tsit_ji_lomaji敢是合法教育部羅馬字抑是白話字。若是數字調、調符、教育部傳統版,攏會當做合法。

>>> from kesi import kam_haphuat
>>> kam_haphuat('tsiânn')
True
>>> kam_haphuat('tsiann5')
True
>>> kam_haphuat('chiâⁿ')
True
>>> kam_haphuat('tsiâⁿ')
True

PIAUTIAM

含半型、全型標點符號ê set()

其他

算字數

$ echo '我是Tâi-gí ê ke-si' | python le/sng_jisoo.py
# 字數= 7

Khai-huat

tox -e behave