Skip to content

Hihoshi/MaxSeg

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

一个基于c++的中文最大匹配分词demo

简介

本项目是一个基于C++的中文最大匹配分词demo 使用了多层哈希表来实现高效的查找和插入操作,并使用stl容器自带的红黑树来兜底防止哈希表溢出,实现O(1)的查找时间复杂度。

功能

  1. 加载字典文件并构建多层哈希表。
  2. 从测试文件中读取待分词文本,并匹配其中所有的子词。
  3. 输出分词结果。

使用方法

  1. 将字典文件(dict.txt)和测试文件(demo.txt)放在项目目录下的data文件夹中。
  2. 编译并运行程序,输出分词结果。

代码结构

  • src/main.cpp:主函数,负责加载字典文件、构建多层哈希表、读取测试文件并进行分词。
  • src/MultiHashTable.cpp:多层哈希表的实现文件,实现了多层哈希表的功能。
  • src/PreSplit.cpp:预分词模块的实现文件,实现了词匹配。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages