LDA-model

实现英文分词后使用LDA提取主题

实现了将英文语料进行分词并去除停用词后提取主题的功能

可以通过pandas从其他地方获取语料来实现其他数据的分析，代码中固定语料为源代码中的，实际处理的语料为Excel表格中的一列数据，使用到了pandas库

代码部分给出了停用词表但是并没有使用到而是使用的自带的停用词表后期如果有需求可以自己更换

num_topics参数是确定标签的数量，num_words是确定每个label中单词的数量，可以根据需求自己确定，确定的方法可以参考网上的一些教程

LDA模型是比较经典的模型，但是比较老，适用于大语料的情况，如果有需求可以自行优化和改进，可以参考各类使用到LDA进行数据分析的学术论文

参考博客

个人比较菜主要代码还是参考其他博主的，在这里向各位博主表示致谢

https://blog.csdn.net/selinda001/article/details/80446766 博主描述的比较清晰，有需求的小伙伴可以自行食用

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
English_stop_words.txt		English_stop_words.txt
README.md		README.md
lda.py		lda.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LDA-model

实现了将英文语料进行分词并去除停用词后提取主题的功能

可以通过pandas从其他地方获取语料来实现其他数据的分析，代码中固定语料为源代码中的，实际处理的语料为Excel表格中的一列数据，使用到了pandas库

代码部分给出了停用词表但是并没有使用到而是使用的自带的停用词表后期如果有需求可以自己更换

num_topics参数是确定标签的数量，num_words是确定每个label中单词的数量，可以根据需求自己确定，确定的方法可以参考网上的一些教程

LDA模型是比较经典的模型，但是比较老，适用于大语料的情况，如果有需求可以自行优化和改进，可以参考各类使用到LDA进行数据分析的学术论文

参考博客

个人比较菜主要代码还是参考其他博主的，在这里向各位博主表示致谢

About

Releases

Packages

Languages

xuzhounan/LDA-model

Folders and files

Latest commit

History

Repository files navigation

LDA-model

实现了将英文语料进行分词并去除停用词后提取主题的功能

可以通过pandas从其他地方获取语料来实现其他数据的分析，代码中固定语料为源代码中的，实际处理的语料为Excel表格中的一列数据，使用到了pandas库

代码部分给出了停用词表 但是并没有使用到 而是使用的自带的停用词表 后期如果有需求可以自己更换

num_topics参数是确定标签的数量，num_words是确定每个label中单词的数量，可以根据需求自己确定，确定的方法可以参考网上的一些教程

LDA模型是比较经典的模型，但是比较老，适用于大语料的情况，如果有需求可以自行优化和改进，可以参考各类使用到LDA进行数据分析的学术论文

参考博客

个人比较菜 主要代码还是参考其他博主的，在这里向各位博主表示致谢

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

代码部分给出了停用词表但是并没有使用到而是使用的自带的停用词表后期如果有需求可以自己更换

个人比较菜主要代码还是参考其他博主的，在这里向各位博主表示致谢

Packages