Skip to content

shuizhubocai/crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

使用requests+lxml爬取网站

crawler

爬取的网站

  • 爬取的是董伟明博客标题

爬虫包含6个模块

  • url管理器
  • download下载器
  • parser解析器
  • output导出数据
  • crawler爬虫调度器
  • useragent代理池

使用项目

  • 建议使用virtualenv在独立的环境中运行项目
  • pip3 install -r requirements.txt
  • python crawler.py

注意事项

  • lsxm版本使用3.5.0。目前高于3.5.0会不兼容
  • python版本使用3.6.0
  • pip3版本使用10.0.1

About

requests+lxml爬虫,简单爬虫架构

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages