-
Notifications
You must be signed in to change notification settings - Fork 0
/
details.html
199 lines (198 loc) · 9.73 KB
/
details.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<html lang="ga">
<head>
<title>Líonra Séimeantach na Gaeilge: Sonraí</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<meta http-equiv="Content-Language" content="ga">
<meta name="description" content="Irish language semantic network: details in Irish">
<meta name="keywords" content="thesaurus, wordnet, semantic network, Irish language, Irish Gaelic, Gaeilge">
<meta name="author" content="Kevin P. Scannell">
<link rel="stylesheet" href="../kps.css" type="text/css">
</head>
<body>
<div class="content">
<h1>Líonra Séimeantach na Gaeilge:<br>
Sonraí</h1>
<h2>
<a href = "/index.html">Kevin P. Scannell</a>
</h2>
<hr>
<h2>Conas a úsáidtear an brabhsálaí 3T</h2>
<p>
Ar dtús, cuir focal nó frása isteach sa bhosca cuardaigh.
Má tá níos mó ná roinn chainte amháin ag an bhfocal, fiafrófar díot
ceann acu a roghnú. Go hiondúil, áfach, luchtófar feidhmchláirín Java
go huathoibríoch san áit faoin bhosca chuardaigh, agus taispeánfar píosa beag
den líonra ann, láraithe ar d'fhocal.
</p>
<p>
Seo iad na gníomhartha atá ar fáil sa bhrabhsálaí:
<ul>
<li><b>Rothlú</b>. Cliceáil agus tarraing do luch ar spás folamh chun an líonra a rothlú. Má scaoileann tú an luch agus é ag bogadh, leanann an pictiúr ag gluaiseacht.
<li><b>Nascleanúint</b>. Is féidir turas a dhéanamh tríd an líonra trí
nóid (dearg nó uaine) a chliceáil. Cuirfear an nód a chliceálann tú
i lár an scáileáin agus athdhearfar na craobhacha is gaire don nód seo.
<li><b>Eolas a fháil</b>. Cuir an cúrsóir anuas ar nód chun roinn chainte
an fhocail agus a dhíochlaonadh a fheiceáil i bpreabfhuinneog bheag.
<li><b>Nóid a tharraingt</b>. Cliceáil agus tarraing nód chun é a bhogadh.
Nuair a scaoilfidh tú an luch, rachaidh sé ar ais go dtí a áit nádúrtha.
</ul>
</p>
<p>
Tá gach nód uaine ina "mhol" — focal a léiríonn bunchiall
sa líonra. Comhfhreagraíonn gach nód dearg le focal ortagrafach agus
tá sé nasctha leis an mol uaine a thugann a bhunchiall (nó le níos
mó ná mol amháin más focal athbhríoch é). Ceanglaíonn nascanna dearg-dearg
focail chomhchiallacha, eagraithe i bhfáinne timpeall
moil uaine.
Is iad na nascanna uaine-uaine a sholáthraíonn saibhreas an líonra
i ndáiríre — léiríonn siad gaolta séimeantacha níos ginearálta
(ar nós hipearainmneacha agus hiopainmneacha) idir na bunchialla.
</p>
<p>
Mar shampla, má chuireann tú an focal <i>meirbhe</i> isteach
sa bhosca cuardaigh, feicfidh tú rud éigin cosúil leis seo i
do bhrabhsálaí:
</p>
<p class="centered">
<img src="meirbhe.png" alt="LSG graph image, centered on 'meirbhe'">
</p>
<p>
Ciallaíonn na trí mhol uaine go bhfuil trí bhunchiall ag an bhfocal
<i>meirbhe</i>: <i>brothall</i> (B. "sultriness, humidity"),
<i>easpa aeir</i> (B. "stuffiness"), agus <i>lagachar</i> (B. "weakness").
Má chliceálann tú an nód uaine <i>brothall</i>, feicfidh tú é seo:
</p>
<p class="centered">
<img src="brothall.png" alt="LSG graph image, centered on 'brothall'">
</p>
<p>
Anois, tá <i>brothall</i> sa lár agus tá cúig nód dhearg ina thimpeall,
focail chomhchiallacha leis an mbunchiall seo. Ina dteannta seo,
tá aon ghaol uaine-uaine ann, leis an bhfocal <i>teaspach</i>
(B. "hot weather").
Má chliceáil tú an nód <i>lagachar</i> in ionad <i>brothall</i>,
bheadh an scéal i bhfad níos casta:
</p>
<p class="centered">
<img src="lagachar.png" alt="LSG graph image, centered on 'lagachar'">
</p>
<p>
I dtús báire, mar a tharlaíonn uaireanta, léiríonn
an nód uaine <i>lagachar</i> <b>dhá</b> bhunchiall
i ngar do na focail Bhéarla "weakness" agus "faintness".
Feicfidh tú roinnt nód a fhreagraíonn don chéad bhunchiall
(m.sh. <i>lag</i>), cinn eile níos gaire don dara ciall (<i>meirfean</i>),
agus go leor eile a fhreagraíonn dóibh araon.
Tugann sé seo go leor idirghníomhartha breá blasta sa líonra.
Tabhair faoi deara go bhfuil nóid uaine ann freisin, ach seans
go bhfuil siad níos deacra a thabhairt chun grinnis sa phictiúr thuas,
gan a bheith in ann é a rothlú:
<i>marbhántacht</i> (B. "lethargy"), <i>soghontacht</i> (B. "vulnerability"),
<i>míthathag</i> (B. "flimsiness"), <i>éalang</i> (B. "a weak spot"), srl.
</p>
<hr>
<h2>Conas a chruthaigh mé an líonra</h2>
<p>
Thosaigh an tionscadal seo i 2002 nuair a chruthaigh mé teasáras
simplí Gaeilge, bunaithe ar Theasáras Roget atá ar fáil saor in aisce ó
<a href = "http://www.gutenberg.org/wiki/Main_Page">Project Gutenberg</a>.
Labhair mé ar an obair sin ag an gcomhdháil TALN 2003 i Batz-sur-Mer
(sa Bhriotáin):
<a href = "/pub/teas.pdf">Automatic thesaurus generation for minority languages: an Irish example</a>.
Ní raibh mé lánsásta le cáilíocht an teasárais a tháinig ón algartam sin,
ós rud é gur tháinig sé in oidhreacht ar na fadhbanna go léir i Roget:
struchtúr anásta nach bhfuil úsáideach le haghaidh bogearraí
teangeolaíochta eile (liostaí fada d'fhocail ghar-chomhchiallacha
bailithe le chéile i gcatagóirí ginearálta),
easpa téarmaíochta nua-aimseartha (is ón eagrán 1913 é an leagan Roget
atá saor in aisce), agus easpa gaolta séimeantacha cosúil le
hipearainmneacha agus hiopainmneacha.
Dá bhrí sin uile níor scaoil mé an teasáras amach go forleathan, le súil
go mbeidh seans agam feabhas mór a chur air.
</p>
<p>
Mar a fheicfidh tú sa pháipéar TALN thuasluaite, ba léir dom go fiú ansin
gurbh fhéidir formhór na bhfadhbanna seo a réiteach trí WordNet
Princeton a úsáid in ionad Roget mar bhunsraith.
B'fhíor an méid sin. Agus níos tábhachtaí fós, tá algartaim
nua níos cumhachtaí agam anois lenar féidir aistriúcháin athbhríocha
Béarla d'fhocail Ghaeilge a imdhealú agus chuir sé seo feabhas mór ar
an scéal.
</p>
<p>
Is é croí na ceiste agus an líonra á chruthú ná gach focal Gaeilge a mhapáil
go dtí a bhunchiall nó a bhunchialla Béarla i WordNet Princeton.
Chun na críche seo, úsáidim na gearraistriúcháin Bhéarla atá i m'fhoclóir
leictreonach Gaeilge. Focal amháin nó dhá fhocal atá i gceist
go hiondúil, ar nós na n-aistriúchán atá i bhfoclóir Uí Dhónaill.
Nuair nach bhfuil ach ciall amháin ag aistriúchán Béarla, níl aon fhadhb ann:
Sainmhínítear <i>stáplóir</i> mar "stapler" agus níl ach ciall amháin ag
an bhfocal seo i WordNet Princeton.
Is iad na focail athbhríocha Bhéarla
an chuid is deacra den obair; focail ar nós "bank", "ball", nó "flag".
</p>
<p>
Chun na focail athbhríocha a imdhealú, úsáidim "Corpas Comhthreomhar":
bailiúchán mór de théacsanna Béarla in éineacht lena n-aistriúcháin Ghaeilge,
abairtí ailínithe le habairtí.
Mar shampla, abair go bhfuil suim agam san fhocal <i>bruach</i>, agus
is "bank" ceann de na gearraistriúcháin de i m'fhoclóir.
Bainim amach gach abairt Ghaeilge ina bhfuil an focal
<i>bruach</i> (nó <i>bhruach</i>, <i>mbruach</i>, srl.) agus na habairtí
Béarla atá ailínithe leo.
Beidh an focal "bank" i gcuid de na habairtí Béarla, agus má tá
an t-ádh orainn, is féidir an chiall cheart a roghnú bunaithe ar
an gcomhthéacs breise atá ar fáil sna habairtí seo, le cabhair ó
theicnící coitianta in imdhealú athbhríochta.
Nílim roghnaíoch maidir leis na sonraí a théann isteach sa
chorpas comhthreomhar sa chaoi go mbeidh dóthain faisnéise ann
le haghaidh an phróisis seo.
Mar shampla, cuirim na focail Ghaeilge ailínithe lena n-aistriúcháin
Bhéarla san áireamh, cé nach abairtí iomlána iad.
Go minic, is féidir an chiall cheart a bhaint amach ó na
gearraistriúcháin seo amháin, rud is eol do chuile fhoclóirí le fada,
Ó Dónaill et al san áireamh. Aimsítear gearraistriúcháin athbhríocha
go minic ar fhocail (mar shampla <i>feileastram</i> mar "flag, iris")
ach níl aon chontúirt ag roinnt leis seo nuair a thugtar an dá fhocal
mar aistriúcháin le chéile.
Nuair a chruthaigh mé an teasáras i 2003, ní raibh corpas mór comhthreomhar
agam fós agus d'úsáid mé na gearraistriúcháin amháin le haghaidh imdealaithe.
</p>
<p>
Nóta tábhachtach teicniúil eile: ní mhapálaim focail Ghaeilge go dtí
na bunchialla i WordNet Princeton go díreach. Is é cúis leis seo
go ndéanann na foclóirithe Princeton idirdhealuithe an-chaolchúiseacha
idir bríonna, go fiú idirdhealuithe nach féidir le daoine éirimiúla gan
traenáil speisialta i bhfoclóireacht a dhéanamh. Agus chomh cinnte
le sioc nach féidir le ríomhchlár dúr staitistiúil an jab céanna
a dhéanamh go hiontaofa!
Ina theannta sin, tá go leor bunchiall sa Ghaeilge nach bhfuil ar fáil
i mBéarla (m.sh. freagraíonn "dearg" agus "rua" do bhunchiall amháin
("red") i WordNet Princeton) agus is iad seo na cialla is mian liom
a chaomhnú go háirithe in acmhainn Lán-Ghaeilge ar nós LSG.
Dá bhrí sin, chuir mé sraith nua isteach - "líonra inmheánach" -
idir Gaeilge agus Béarla le mapáil i ngach treo.
I ndáiríre, líonra Béarla atá ann, ach ceann atá dírithe ar
riachtanais na Gaeilge.
Bhain mé an-úsáid as foclóir Béarla-Gaeilge Tomás de Bhaldraithe
chun é seo a chruthú; bhí mé in ann na cialla uimhrithe a thugann
de Bhaldraithe faoi gach ceannfhocal a úsáid mar
gharmheastachán tosaigh ar fhardal na gciall sa líonra inmheánach.
</p>
<hr>
<em>© Cóipcheart 2007 Kevin P. Scannell</em><br>
</div>
<div class="navigation">
<a href = "index.html" hreflang = "ga">Baile</a><br>
Sonraí<br>
<a href = "thanks.html" hreflang = "ga">Buíochas</a><br>
<a href = "/nlp.html" hreflang = "en">Tionscadail</a><br>
<a href = "details-en.html" hreflang = "en">In English</a><br>
<p class="centered">
<a href="lsg-best.png"><img class="linked-image" src="lsg-thumb.png" alt="LSG graph image" height="184" width="184"></a>
</p>
</div>
</body>
</html>