一个基于 Python 的淘宝商品评论爬取和分析系统,支持评论爬取、文本分析、主题建模和可视化。
- 自动爬取淘宝商品评论
- 文本分词和词频统计
- LDA 主题模型分析
- 词云图生成
- 主题分布可视化
- 结果数据导出
- Python 3.9+
- Chrome 浏览器
- Docker(可选)
-
构建镜像:
docker-compose build
-
运行容器:
docker-compose up
-
克隆项目:
git clone <repository-url> cd TextMining
-
创建虚拟环境:
python -m venv venv source venv/bin/activate # Linux/Mac .\venv\Scripts\activate # Windows
-
安装依赖:
pip install -r requirements.txt
-
运行程序:
python main.py
- 启动程序后,会自动打开浏览器等待登录
- 手动完成淘宝登录(15秒内)
- 输入商品链接开始爬取评论
- 程序会自动进行以下处理:
- 爬取评论数据
- 进行文本分析
- 生成词云图
- 进行主题分析
- 保存分析结果
TextMining/
├── crawler/ # 爬虫模块
├── analysis/ # 文本分析模块
├── visualization/ # 可视化模块
├── utils/ # 工具模块
├── output/ # 输出目录
│ ├── data/ # 数据文件
│ ├── visualization/ # 可视化文件
│ └── logs/ # 日志文件
├── config.json # 配置文件
├── requirements.txt # 依赖清单
├── Dockerfile # Docker配置
└── docker-compose.yml # Docker Compose配置
系统的主要配置项在 config.json 中:
-
CRAWLER: 爬虫相关配置MAX_PAGES: 最大爬取页数WAIT_TIME: 等待时间设置LOGIN_TIMEOUT: 登录等待时间
-
ANALYSIS: 分析相关配置TOPIC_COUNT: 主题数量WORDS_PER_TOPIC: 每个主题的关键词数量
-
VISUALIZATION: 可视化相关配置WORDCLOUD: 词云图设置TOPIC_PLOT: 主题分布图设置
comments.txt: 原始评论数据word_frequencies.csv: 词频统计topic_analysis.csv: 主题分析结果wordcloud.png: 词云图topic_distribution.png: 主题分布图lda_visualization.html: 交互式LDA可视化
- 首次运行需要手动登录淘宝
- 爬取速度受网络条件影响
- 建议适当调整等待时间避免被反爬
- 确保系统安装了所需的中文字体
-
登录超时
- 可以在配置文件中增加
LOGIN_TIMEOUT的值
- 可以在配置文件中增加
-
未找到评论
- 检查商品链接是否正确
- 确认商品是否有评论
- 尝试增加等待时间
-
字体问题
- 安装所需的中文字体:
sudo apt-get install fonts-noto-cjk - Windows 系统字体问题,请查看issue
- 安装所需的中文字体:
MIT License
欢迎提交 Issue 和 Pull Request


