Skip to content

实现英文分词后使用LDA提取主题

Notifications You must be signed in to change notification settings

xuzhounan/LDA-model

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

LDA-model

实现英文分词后使用LDA提取主题

实现了将英文语料进行分词并去除停用词后提取主题的功能

可以通过pandas从其他地方获取语料来实现其他数据的分析,代码中固定语料为源代码中的,实际处理的语料为Excel表格中的一列数据,使用到了pandas库

代码部分给出了停用词表 但是并没有使用到 而是使用的自带的停用词表 后期如果有需求可以自己更换

num_topics参数是确定标签的数量,num_words是确定每个label中单词的数量,可以根据需求自己确定,确定的方法可以参考网上的一些教程

LDA模型是比较经典的模型,但是比较老,适用于大语料的情况,如果有需求可以自行优化和改进,可以参考各类使用到LDA进行数据分析的学术论文

参考博客

个人比较菜 主要代码还是参考其他博主的,在这里向各位博主表示致谢

https://blog.csdn.net/selinda001/article/details/80446766 博主描述的比较清晰,有需求的小伙伴可以自行食用

About

实现英文分词后使用LDA提取主题

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%