Replies: 4 comments 9 replies
-
示例的方案代碼沒有定義拼寫運算規則。以編碼術的話語講,是沒有定義什麼是「主碼」。 因此沒有輸入完整編碼的時候,所有的候選字都是根據未完成的那部分編碼預測出來的,這類結果排序按照編碼的字典順序排列。 |
Beta Was this translation helpful? Give feedback.
-
@lotem 报告,又经过多次反复试验,发现了一个更奇怪的现象…… 但是,只要把“台”字的辅助码改一下,本来是 sz,改一个字母比如改成 sx,排序就变了!会有一个奇怪的生僻字出现在第一页
占用大佬很多时间,很抱歉,感谢您一直回复。 |
Beta Was this translation helpful? Give feedback.
-
試試 |
Beta Was this translation helpful? Give feedback.
-
我遇到过的一个问题与这个讨论的标题描述有点类似,虽然和事实上讨论的东西不一样。鉴于可能有用户遇到与我同样的问题而点进这个帖子,我还是在这里简单描述一下,以便参考。不作为本问题的回答。(如果我的回复更适合放在其他某个地方,可以告诉我。) |
Beta Was this translation helpful? Give feedback.
-
我构造了一个最简例子来展示这个疑似 bug,schema 和码表见 https://gist.github.com/BettyJJ/7a837441b80f485082102ef5ea2af7d7
示例码表中只包含读 tai 的字,给每个字拼音后面加上了辅助码,比如“太”成为
tai;dd
输入 tai,翻一两页,会看到很多生僻字排序很靠前
如果把码表中从分号开始的辅助码部分全都去掉,只保留全拼
重新部署后再输入 tai,翻一两页,可以看到前面都是常见字
因为是最简例子,所以没加任何拼写运算(也试过加各种拼写运算,对这个效果没影响)
码表中没有词频,是
use_preset_vocabulary: true
导入了预设的 essay.txt,而 essay.txt 文件我没改过,点开看了,里面的词频都是正常的我还试验过把所有字的辅助码都写成一样,比如都写成
tai;pp
,这时输入 tai 就发现排序正常,跟只保留全拼效果一样所以,看起来似乎是辅助码本身的码影响了排序
我还试过把一个辅助码是 dd 的字改成 zd,它在候选字里的顺序就从很前面跑到后面去了……
这是个 bug?还是什么隐藏机制?还是我哪里没配置对?
应如何解决?
Beta Was this translation helpful? Give feedback.
All reactions