Releases · hankcs/HanLP

05 Mar 20:22

hankcs

v1.7.7

9577651

改进原子切分 fix #1421
修复聚类数目大于文档数目时引发的异常 fix #1397
使用构造函数代替静态NERInstance.create，方便子类继承
去掉幺=么 fix #1427
CRFModel support getting all tags
修复 AbstractClassifier.enableProbability fix #1423
开放 CWSEvaluator.Result 内部成员 fix https://bbs.hankcs.com/t/topic/887
公开HMM的成员
数据包兼容data-for-1.7.5.zip md5=1d9e1be4378b2dbc635858d9c3517aaa
Portable版同步升级到v1.7.7

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.7</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

10 Jan 03:29

hankcs

v2.0.0-alpha.0

ca50edb

v2.0.0-alpha.0 NLP for the next decade Pre-release

Pre-release

HanLP 2.0 embraces the state-of-the-art Natural Language Processing with Deep Learning and massive unlabeled corpora. Featuring updates are:

Easy model building and serving with TensorFlow 2.0 and Keras.
Multilingual Support.
Tokenization, Part-of-Speech Tagging, Named Entity Recognition, Syntactic & Semantic Dependency Parsing, Document Classification via one unified interface.

Currently, HanLP 2.0 is in alpha stage with more killer features on the roadmap. For news and updates, join our forum.

Assets 2

01 Jan 00:19

hankcs

v1.7.6

78769d8

v1.7.6 最后的武士 The Last Samurai

接下来是一个全新的时代，我们的征途是星辰大海。此后1.x分支将继续提供稳定性维护，两个版本面向的场景不同，2.0基于深度学习，面向对精度要求极其高的场景，例如端到端的问答系统解决方案；而1.x基于传统机器学习和特征工程，面向搜索引擎等对速度要求较高的场景。2.0需要时间打磨，1.x将会持续维护，保证稳定性。

新增 DocVectorModel.nearest(java.lang.String, int) 方法 fix #1332
词法分析器新增空格处理 fix #797
修订现代汉语补充词库 fix #1330
NGramDictionaryMaker等默认UTF-8编码 fix #1320
WordVectorModel支持自定义Map类型：#1304
修复信息熵计算中的除零错误 fix #1366
修复Nature的线程安全性
tfidf，idf的数据可以通过加载idf文件得到
开放 CoreStopWordDictionary.dictionary #1356
修复加载自定义停用词文件无效
兼容数据包data-for-1.7.5.zip 或分流或网盘md5=1d9e1be4378b2dbc635858d9c3517aaa
Portable版同步升级到v1.7.6

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.6</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

17 Oct 02:20

hankcs

v1.7.5

422077b

v1.7.5《自然语言处理入门》随书代码

《自然语言处理入门》新书发布，欢迎查阅随书代码

一本零起点NLP入门书，基础理论与生产代码并重，Python与Java双实现。从基本概念出发，逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解，比较了它们的优缺点和适用场景，同时详细演示生产级成熟代码，助你真正将自然语言处理应用在生产环境中。《自然语言处理入门》由南方科技大学数学系创系主任夏志宏、微软亚洲研究院副院长周明、字节跳动人工智能实验室总监李航、华为诺亚方舟实验室语音语义首席科学家刘群、小米人工智能实验室主任兼NLP首席科学家王斌、中国科学院自动化研究所研究员宗成庆、清华大学副教授刘知远、北京理工大学副教授张华平和52nlp作序推荐。感谢各位前辈老师，希望这个项目和这本书能成为大家工程和学习上的“蝴蝶效应”，帮助大家在NLP之路上蜕变成蝶。

论坛蝴蝶效应上线！限时开放注册，用于交流讨论HanLP使用方法和读者反馈，格式比GitHub自由
DocVectorModel支持自定义分词器、开/关停用词过滤器 fix #1253 (comment)
将换行空格等视作CT_OTHER fix #1283
修复repeated bisection聚类算法 fix #1260 (comment)
让CoreStopWordDictionary.apply返回结果
修复Analyzer的enableCustomDictionaryForcing方法 fix #1221
新数据包data-for-1.7.5.zip 或分流 md5=1d9e1be4378b2dbc635858d9c3517aaa
Portable版同步升级到v1.7.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.5</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 4

28 Jun 17:24

hankcs

v1.7.4

590af00

v1.7.4 与OpenCC完全一致的简繁转换

无损转换OpenCC词典，结果一致 https://github.com/hankcs/OpenCC-to-HanLP fix #1184
停用词典支持热更新：fix #1158
修正URLTokenizer中的正则表达式 fix #1188
修复自定义词性 fix #1172
修正 CollectionUtility.sortMapByValue(java.util.Map<K,V>, boolean) fix #1159
修订人名词典
修正角色标注时“始##始”的A标签 fix #434
Add unit tests for com.hankcs.hanlp.utility.MathUtilityTest and com.hankcs.hanlp.algorithm.EditDistance
微调bigram fix #1015
新数据包data-for-1.7.4.zip 或海外或网盘md5=0e2e1bfc4da6d9305909ce815cbe5a44
Portable版同步升级到v1.7.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 4

20 Apr 05:46

hankcs

v1.7.3

b6e19fe

v1.7.3常规维护

感知机词法分析器默认使用98年人民日报6个月的大模型
优化DoubleArrayTrie fix #1136
CRFNERecognizer支持在构造时传入自定义命名实体标签，新增addNERLabels方法 @zhangruinan
防止ViterbiSegment.dat不必要的初始化
修复词法分析器对动态插入的词条的处理 fix #271 (comment)
词法分析器seg接口支持自定义词性覆盖统计词性 fix #1156
修订拼音
新数据包data-for-1.7.3.zip 或网盘md5=4e4f3695565a75b56427ba4a40731949
Portable版同步升级到v1.7.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.3</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

22 Feb 00:54

hankcs

v1.7.2

e601bc6

v1.7.2新的句法分析模块、多项改进

新增基于ArcEager转移系统的柱搜索依存句法分析器，废弃MaxEntDependencyParser
调整繁體分詞策略 fix #1059
修正卡方检验整型溢出的问题，准确率提升（95.47->96.08） fix #1075
使LexicalAnalyzer支持TranslatedPersonRecognition和JapanesePersonRecognition fix #1080
提示在线学习不可能学习新的标签
tokenizer的seg2sentence修改为static
词法分析器默认关闭规则系统
修正CustomDictionary.reload(); fix #1100
unigram、bigram微调
新数据包data-for-1.7.2.zip 或网盘md5=2228732bae47b8dc8e410678af72847f
Portable版同步升级到v1.7.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

23 Dec 04:27

hankcs

v1.7.1

3da7c41

v1.7.1高速缓存、动态词典

新增可自定义用户词典的维特比分词器 @AnyListen
利用BufferedOutputStream加速缓存生成，快37倍
自定义词典兼容含有空格的路径 fix #1025
增加isCustomNature方法
使热更新产生的缓存文件包含用户词性 fix #1028
修复可变DAT的entrySet方法 fix #1038
微调ngram，简繁等
新数据包data-for-1.7.1.zip MD5 = 9b8faa7fc7fddb24e27da27bd404126d
Portable版同步升级到v1.7.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.1</version>
        </dependency>

感谢所有在issue中提出宝贵建议的用户！

Assets 3

11 Nov 04:29

hankcs

v1.7.0

49ffc9d

v1.7.0新增文本聚类、流水线分词

🚩新增文本聚类模块（k-means和repeated bisection）
🚩词法分析器新增流水线模式
词法分析器加入规则 enableRuleBasedSegment #991
支持通过JVM的启动参数指定data路径：java -DHANLP_ROOT=/opt/hanlp 则加载/opt/hanlp/data #983
分词断句支持指定断句颗粒 #1018
CustomDictionary.insert("新词语", "词性标签") 支持省略频次
NeuralNetworkDependencyParser构造函数接受Segment
TextRankKeyword支持构造自任意分词器
优化双数组trie树，构建后自动shrink到最低内存 #984
修订简繁词典
微调ngram和nr模型
新数据包data-for-1.7.0.zip MD5 = 4c396f3039230ddfcef20865264512b1
Portable版同步升级到v1.7.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.0</version>
        </dependency>

🎉节日快乐！感谢所有在issue中提出宝贵建议的用户！

Assets 3

25 Aug 22:38

hankcs

v1.6.8

2a071ec

v1.6.8全世界最大的中文语料库

新模型训练自一亿字的大型综合语料库，是目前全世界最大的中文分词语料库。语料规模决定实际效果，希望如此大规模的语料库能够引起大家对语料库建设工作的重视。欢迎使用NLPTokenizer.analyze接口或PerceptronLexicalAnalyzer体验这一改进。
修复“改进人名UV拆分”造成的问题 fix #932
文本分类的卡方检测失败时不过滤特征 fix #920
废弃HMMSegment
修订简繁词典
新数据包data-for-1.6.8.zip md5=0eae09571f080bd99b81f79bee6c6b62
Portable版同步升级到v1.6.8

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.8</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: hankcs/HanLP

v1.7.7 常规维护、多项改进

v2.0.0-alpha.0 NLP for the next decade

v1.7.6 最后的武士 The Last Samurai

v1.7.5《自然语言处理入门》随书代码

v1.7.4 与OpenCC完全一致的简繁转换

v1.7.3常规维护

v1.7.2新的句法分析模块、多项改进

v1.7.1高速缓存、动态词典

v1.7.0新增文本聚类、流水线分词

v1.6.8全世界最大的中文语料库