GitHub - TesterlifeRaymond/BlogSpider: 用于自动更新blog的爬虫

这是一个配合Hexo静态Blog使用的Spider项目

用于自动更新blog的爬虫

Usage:
- 项目基于scrapy实现爬虫部分的代码
- 在piplines中使用html2text将html页面自动转换成md文件并排版
- 数据指纹是用文章的title_md5 来进行标注的

该项目主要是针对简书的Python搜索/Python相关最新/Python最热几个频道进行了日常采集, 并将文章生成后生成Hexoblog的静态页面, 所有文章中标注了文章来源, 转载声明

Sample: Raymond's Blog

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
.idea		.idea
BlogSpider		BlogSpider
bin		bin
mdfiles		mdfiles
README.md		README.md
main_crawl.py		main_crawl.py
main_day.py		main_day.py
main_jianshu.py		main_jianshu.py
main_shibor.py		main_shibor.py
main_tuniu.py		main_tuniu.py
scrapy.cfg		scrapy.cfg