Releases: hankcs/HanLP
v1.7.7 常规维护、多项改进
- 改进原子切分 fix #1421
- 修复聚类数目大于文档数目时引发的异常 fix #1397
- 使用构造函数代替静态NERInstance.create,方便子类继承
- 去掉 幺=么 fix #1427
- CRFModel support getting all tags
- 修复 AbstractClassifier.enableProbability fix #1423
- 开放 CWSEvaluator.Result 内部成员 fix https://bbs.hankcs.com/t/topic/887
- 公开HMM的成员
- 数据包兼容data-for-1.7.5.zip
md5=1d9e1be4378b2dbc635858d9c3517aaa
- Portable版同步升级到v1.7.7
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.7</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v2.0.0-alpha.0 NLP for the next decade
HanLP 2.0 embraces the state-of-the-art Natural Language Processing with Deep Learning and massive unlabeled corpora. Featuring updates are:
- Easy model building and serving with TensorFlow 2.0 and Keras.
- Multilingual Support.
- Tokenization, Part-of-Speech Tagging, Named Entity Recognition, Syntactic & Semantic Dependency Parsing, Document Classification via one unified interface.
Currently, HanLP 2.0 is in alpha stage with more killer features on the roadmap. For news and updates, join our forum.
v1.7.6 最后的武士 The Last Samurai
接下来是一个全新的时代,我们的征途是星辰大海。此后1.x分支将继续提供稳定性维护,两个版本面向的场景不同,2.0基于深度学习,面向对精度要求极其高的场景,例如端到端的问答系统解决方案;而1.x基于传统机器学习和特征工程,面向搜索引擎等对速度要求较高的场景。2.0需要时间打磨,1.x将会持续维护,保证稳定性。
- 新增 DocVectorModel.nearest(java.lang.String, int) 方法 fix #1332
- 词法分析器新增空格处理 fix #797
- 修订现代汉语补充词库 fix #1330
- NGramDictionaryMaker等默认UTF-8编码 fix #1320
- WordVectorModel支持自定义Map类型:#1304
- 修复信息熵计算中的除零错误 fix #1366
- 修复Nature的线程安全性
- tfidf,idf的数据可以通过加载idf文件得到
- 开放 CoreStopWordDictionary.dictionary #1356
- 修复加载自定义停用词文件无效
- 兼容数据包data-for-1.7.5.zip 或 分流 或 网盘
md5=1d9e1be4378b2dbc635858d9c3517aaa
- Portable版同步升级到v1.7.6
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.6</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.5《自然语言处理入门》随书代码
- 《自然语言处理入门》新书发布,欢迎查阅随书代码
一本零起点NLP入门书,基础理论与生产代码并重,Python与Java双实现。从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。《自然语言处理入门》由南方科技大学数学系创系主任夏志宏、微软亚洲研究院副院长周明、字节跳动人工智能实验室总监李航、华为诺亚方舟实验室语音语义首席科学家刘群、小米人工智能实验室主任兼NLP首席科学家王斌、中国科学院自动化研究所研究员宗成庆、清华大学副教授刘知远、北京理工大学副教授张华平和52nlp作序推荐。感谢各位前辈老师,希望这个项目和这本书能成为大家工程和学习上的“蝴蝶效应”,帮助大家在NLP之路上蜕变成蝶。
- 论坛蝴蝶效应上线!限时开放注册,用于交流讨论HanLP使用方法和读者反馈,格式比GitHub自由
- DocVectorModel支持自定义分词器、开/关停用词过滤器 fix #1253 (comment)
- 将换行空格等视作CT_OTHER fix #1283
- 修复repeated bisection聚类算法 fix #1260 (comment)
- 让CoreStopWordDictionary.apply返回结果
- 修复Analyzer的enableCustomDictionaryForcing方法 fix #1221
- 新数据包data-for-1.7.5.zip 或 分流
md5=1d9e1be4378b2dbc635858d9c3517aaa
- Portable版同步升级到v1.7.5
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.5</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.4 与OpenCC完全一致的简繁转换
- 无损转换OpenCC词典,结果一致 https://github.com/hankcs/OpenCC-to-HanLP fix #1184
- 停用词典支持热更新:fix #1158
- 修正URLTokenizer中的正则表达式 fix #1188
- 修复自定义词性 fix #1172
- 修正 CollectionUtility.sortMapByValue(java.util.Map<K,V>, boolean) fix #1159
- 修订人名词典
- 修正角色标注时“始##始”的A标签 fix #434
- Add unit tests for com.hankcs.hanlp.utility.MathUtilityTest and com.hankcs.hanlp.algorithm.EditDistance
- 微调bigram fix #1015
- 新数据包data-for-1.7.4.zip 或 海外 或 网盘
md5=0e2e1bfc4da6d9305909ce815cbe5a44
- Portable版同步升级到v1.7.4
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.4</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.3常规维护
- 感知机词法分析器默认使用98年人民日报6个月的大模型
- 优化DoubleArrayTrie fix #1136
- CRFNERecognizer支持在构造时传入自定义命名实体标签,新增addNERLabels方法 @zhangruinan
- 防止ViterbiSegment.dat不必要的初始化
- 修复词法分析器对动态插入的词条的处理 fix #271 (comment)
- 词法分析器seg接口支持自定义词性覆盖统计词性 fix #1156
- 修订拼音
- 新数据包data-for-1.7.3.zip 或网盘
md5=4e4f3695565a75b56427ba4a40731949
- Portable版同步升级到v1.7.3
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.3</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.2新的句法分析模块、多项改进
- 新增基于ArcEager转移系统的柱搜索依存句法分析器,废弃MaxEntDependencyParser
- 调整繁體分詞策略 fix #1059
- 修正卡方检验整型溢出的问题,准确率提升(95.47->96.08) fix #1075
- 使LexicalAnalyzer支持TranslatedPersonRecognition和JapanesePersonRecognition fix #1080
- 提示在线学习不可能学习新的标签
- tokenizer的seg2sentence修改为static
- 词法分析器默认关闭规则系统
- 修正CustomDictionary.reload(); fix #1100
- unigram、bigram微调
- 新数据包data-for-1.7.2.zip 或网盘
md5=2228732bae47b8dc8e410678af72847f
- Portable版同步升级到v1.7.2
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.2</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.1高速缓存、动态词典
- 新增可自定义用户词典的维特比分词器 @AnyListen
- 利用BufferedOutputStream加速缓存生成,快37倍
- 自定义词典兼容含有空格的路径 fix #1025
- 增加isCustomNature方法
- 使热更新产生的缓存文件包含用户词性 fix #1028
- 修复可变DAT的entrySet方法 fix #1038
- 微调ngram,简繁等
- 新数据包data-for-1.7.1.zip
MD5 = 9b8faa7fc7fddb24e27da27bd404126d
- Portable版同步升级到v1.7.1
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.1</version>
</dependency>
感谢所有在issue中提出宝贵建议的用户!
v1.7.0新增文本聚类、流水线分词
- 🚩新增文本聚类模块(k-means和repeated bisection)
- 🚩词法分析器新增流水线模式
- 词法分析器加入规则
enableRuleBasedSegment
#991 - 支持通过JVM的启动参数指定data路径:
java -DHANLP_ROOT=/opt/hanlp
则加载/opt/hanlp/data
#983 - 分词断句支持指定断句颗粒 #1018
CustomDictionary.insert("新词语", "词性标签")
支持省略频次NeuralNetworkDependencyParser
构造函数接受Segment
TextRankKeyword
支持构造自任意分词器- 优化双数组trie树,构建后自动shrink到最低内存 #984
- 修订简繁词典
- 微调ngram和nr模型
- 新数据包data-for-1.7.0.zip
MD5 = 4c396f3039230ddfcef20865264512b1
- Portable版同步升级到v1.7.0
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.0</version>
</dependency>
🎉节日快乐!感谢所有在issue中提出宝贵建议的用户!
v1.6.8全世界最大的中文语料库
- 新模型训练自一亿字的大型综合语料库,是目前全世界最大的中文分词语料库。语料规模决定实际效果,希望如此大规模的语料库能够引起大家对语料库建设工作的重视。欢迎使用
NLPTokenizer.analyze
接口或PerceptronLexicalAnalyzer
体验这一改进。 - 修复“改进人名UV拆分”造成的问题 fix #932
- 文本分类的卡方检测失败时不过滤特征 fix #920
- 废弃
HMMSegment
- 修订简繁词典
- 新数据包data-for-1.6.8.zip
md5=0eae09571f080bd99b81f79bee6c6b62
- Portable版同步升级到v1.6.8
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.8</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!