-
Notifications
You must be signed in to change notification settings - Fork 1
/
dicrc
25 lines (24 loc) · 1.39 KB
/
dicrc
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
;
; Configuration file of mecab-ko-dic
;
# 비용 값으로 변환할 때 배율 팩터입니다. 700에서 800에서 문제가 없습니다.
cost-factor = 800
# 문장의 시작, 문장 끝에 대한 소성(素性)입니다. CSV로 표현합니다.
bos-feature = BOS/EOS,*,*,*,*,*,*,*
# 알려진 단어의 경우 소성(素性)의 처음부터 몇 개까지 일치하면 정답으로
# 인정하는지를 지정합니다. 일반적으로 알려진 단어는 품사 활용 등의 정보만
# 맞추면 되기 때문에, "읽기", "발음" 소성(素性)은 무시하도록 합니다.
# 여기에서는 3가지가 평가됩니다.
eval-size = 4
# 알 수 없는 단어의 경우
# 소성의 처음부터 몇 개까지 일치하면 정답으로 인정할지를 지정합니다.
unk-eval-size = 2
# dicrc, char.def, unk.def, pos-id.def 파일의 문자 코드셋입니다.
config-charset = UTF-8
# 좌측에 공백을 포함하는 품사의 연접 비용을 늘리기 위한 설정입니다.
# mecab-ko에서만 사용되는 설정입니다. 다음과 같은 형식을 가집니다.
# <posid 1>,<posid 1 penalty cost>,<posid 2>,<posid 2 penalty cost>...
#
# 예) 120,6000 => posid가 120인 품사(조사)의 좌측에 공백을 포함할 경우
# 연접 비용을 6000만큼 늘림
left-space-penalty-factor = 100,3000,120,6000,172,3000,183,3000,184,3000,185,3000,200,3000,210,6000,220,3000,221,3000,222,3000,230,3000