forked from taku910/mecab
-
-
Notifications
You must be signed in to change notification settings - Fork 15
/
partial.html
142 lines (117 loc) · 5.13 KB
/
partial.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>制約付き解析 (部分解析)</title>
<link type="text/css" rel="stylesheet" href="mecab.css">
</head>
<body>
<h1>制約付き解析(部分解析)</h1>
<h2>概要</h2>
<p>
入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、
それを満たすように解析する機能です。
</p>
<p>
たとえば、「にわにはにわにわとりがいる。」という文に対して、
「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素
であるというように指定した上で解析することができます。このとき、
制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」
に分割されるような解析候補は排除されます。
</p>
<h2>入力フォーマット</h2>
<p>
MeCabのデフォルト出力と同じようなフォーマットで制約を記述します。
MeCabは -p (--partial) オプション付きで起動する必要があります。
</p>
<p>各行は以下のいずれかに該当します.</p>
<ul>
<li>文断片<br>
文の断片です。制約がないときと同じように通常の形態素解析が行われます。ただし文断片をまたぐような
形態素は出力されません。
<li>形態素断片<br>
それ以上分割されない、ただ一つの形態素です。この断片がそのまま出力されます。
形態素断片は必ず<br>
<pre>表層\t素性パターン</pre>
という形で表記する必要があります。\t がない場合は文断片として処理されます。
<li>EOS
文の終わりを示すマークです。文の終わりには必ず指定してください。
</ul>
<h2>素性パターンの記述方法</h2>
<p>
CSV で記述します。* をワイルドカードとして使うことができます。</p>
<ul>
<li>* : すべての素性
<li>名詞: すべての名詞
<li>*,非自立: 品詞の第二分類が非自立のもの
</ul>
<h2>例</h2>
<p>品詞の部分に * が指定されると、その単語で切り出し、品詞は適当に最適なものを付与します。</p>
<pre>
にわ *
に *
はにわ *
にわとり *
が *
いる *
EOS</pre>
<p>品詞そのものを指定することができます。( "*" はワイルドカード)</p>
<pre>にわ *
に 助詞
はにわ *
にわとり *
が 接続詞
いる *,非自立
EOS</pre>
<p>品詞のカラムを指定しないと、そのトークンは文断片となり、制約がないときと同じように解析されます。ただし、文断片をまたぐような形態素は出力されません。</p>
<pre>にわ
には
にわ
にわとり
がいる
EOS</pre>
<h2>制限</h2>
<h3>制約の限界</h3>
<p>
制約付きの解析は、未知語処理を含め可能な限りラティスを作って、制約を満たさないものを枝刈りするという方法で実装されています。
もし制約を満たすものが一つもない場合、ダミーの形態素を作成します。ただしダミーの形態素の品詞情報(素性)は
制約の情報がそのまま使われます。以下の例では「こんな長い入力を一形態素にしてみる」を
動詞の一形態素と指定していますが、動詞を生成するような未知語処理ルールが存在しないため、制約の品詞をそのまま出力しています。
</p>
<pre>
% mecab -p
こんな長い入力を一形態素にしてみる 動詞
EOS
こんな長い入力を一形態素にしてみる 動詞
EOS
</pre>
<h3>APIによる制約の指定</h3>
<p>
-pオプションを用いた場合、任意の場所に単語境界が存在しない・必ず存在するといったような
細かな制限は行えません。より細かい制御を行いたい場合は、Lattice::set_boundary_constraint, Lattice::set_feature_constraint APIを用います。
</p>
<pre>
MeCab::Lattice *lattice = MeCab::createLattice();
// boundary の指定 (byte単位で指定)
lattice->set_sentence("thisis");
// |this|is| で分割されるように強制
lattice->set_boundary_constraint(0, MECAB_TOKEN_BOUNDARY);
lattice->set_boundary_constraint(1, MECAB_INSIDE_TOKEN);
lattice->set_boundary_constraint(2, MECAB_INSIDE_TOKEN);
lattice->set_boundary_constraint(3, MECAB_INSIDE_TOKEN);
lattice->set_boundary_constraint(4, MECAB_TOKEN_BOUNDARY);
lattice->set_boundary_constraint(5, MECAB_INSIDE_TOKEN);
lattice->set_boundary_constraint(6, MECAB_TOKEN_BOUNDARY);
tagger->parse(lattice);
// feature の指定 (byte単位で指定)
lattice->set_sentence("thisisatest");
// |this|is|a|test| で分割され、かつ品詞大分類をすべて名詞にするように強制
lattice->set_feature_constraint(0,4,"名詞");
lattice->set_feature_constraint(4,6,"名詞");
lattice->set_feature_constraint(6,7,"名詞");
lattice->set_feature_constraint(7,11,"名詞");
tagger->parse(lattice);
</pre>
</body>
</html>