-
-
Notifications
You must be signed in to change notification settings - Fork 27
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
语系编码自动识别的问题 #314
Comments
这个真没注意到,你的信息准确吗?madedit的编码识别是来自与Firefox的编码识别那部分代码。我后面曾经跟firefox比较和同步过,没发现有大的改动。也就是说0.2.6跟后面的没太大改动,如果你有列子能复现这个问题最好,否则也不好说是哪里出了问题。 |
忘了说了,Li大,我是在Windows上碰到这问题的。 |
额,看来有可能是我做检测代码的单例化引入的问题 |
Li大辛苦了,这事不急,有空再搞,注意休息,毕竟从028版至今都十来年了。 |
目前工作确实比较忙,但这个问题的难点是如何验证,如果你能找到几个可以复现出问题的文件就能很快修复。不然也都是漫无目的的瞎蒙。 |
我好像搞混了,我是把语法高亮给单例化了,这个encoding好像没动。所以这个就奇怪了 |
我检查了代码,有如下发现: |
所以需要你提供能复现你说的问题的文件我来查。 |
其实这个很容易复现。Wikimedia Commons 上面收藏了很多 SVG 图像,保存原始文件以后随便一个打开都有 |
@KrasnayaPloshchad 你遇到同样的问题?如果可能,就提供一个能复现这个问题的文件 |
@KrasnayaPloshchad 这两个文件编码检测确实错了。但是,这个不是程序的bug,而且也没法解决。这两个文件是因为在最前面有很大一部分没有出现任何非ASCII的UTF8字符。 |
有一种折中方案就是把检测长度作为一个配置选项暴露给用户,配置的过大还是会导致性能问题。 |
我试了下,文件的确能解析为 UTF-8 编码。那能不能添加一个规则,把 encoding/charset 之类的属性当作优先解析的对象。 |
encoding/charset 这个是语法(syntax)范畴的东西----多数文件格式都没有这个,少数诸如html,xml,python之类的,但是MadEdit的语法高亮部分比较弱,我可以看看语法部分,但是不抱希望。 |
我先标为invalid,你们要是有其他发现,就在这里更新吧 |
Signed-off-by: Minggang Li <[email protected]>
Signed-off-by: Minggang Li <[email protected]>
Signed-off-by: Minggang Li <[email protected]>
基于原0.2.9版本开发存在一个问题:
对于语系编码的自动识别,无法如同0.2.6版本一样准确。
比如某UTF-8的文件,偶尔的被自动识别为其他语系编码。
如果改变检视时的语系编码之后退出文件,则这个问题能够立即重现:
再次开启该文件,会调用上次的检视,而非自动识别文件的原语系编码。
希望 Li 大,是不是能够抽空纠正这个问题。
辛苦了,感谢您接手这个工具的维护,敬祝安康。
The text was updated successfully, but these errors were encountered: