本项目是一个基于C++的中文最大匹配分词demo 使用了多层哈希表来实现高效的查找和插入操作,并使用stl容器自带的红黑树来兜底防止哈希表溢出,实现O(1)的查找时间复杂度。
- 加载字典文件并构建多层哈希表。
- 从测试文件中读取待分词文本,并匹配其中所有的子词。
- 输出分词结果。
- 将字典文件(dict.txt)和测试文件(demo.txt)放在项目目录下的data文件夹中。
- 编译并运行程序,输出分词结果。
src/main.cpp:主函数,负责加载字典文件、构建多层哈希表、读取测试文件并进行分词。src/MultiHashTable.cpp:多层哈希表的实现文件,实现了多层哈希表的功能。src/PreSplit.cpp:预分词模块的实现文件,实现了词匹配。