Skip to content

pengcao/python-website-clawer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

python-website-clawer

python-website-clawer是业余时间,学习Python爬虫的例子。


介绍

  • 网络爬虫的基本工作流程

    • 首先选取一部分精心挑选的种子URL;
    • 将种子URL加入任务队列;
    • 从待抓取URL队列中取出待抓取的URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库 中。此外,将这些URL放进已抓取URL队列。
    • 分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环;
    • 解析下载下来的网页,将需要的数据解析出来;
    • 数据持久化,保存至数据库中。
  • Python爬虫框架

    • grab – 网络爬虫框架(基于pycurl/multicur)。
    • scrapy – 网络爬虫框架。
    • pyspider – 一个强大的爬虫系统。
    • cola – 一个分布式爬虫框架。
    • portia – 基于Scrapy的可视化爬虫。
    • restkit – Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立的对象。
    • demiurge – 基于PyQuery的爬虫微框架。
  • 学习案例

    • 本学习案例仅支持Python3.x;
    • basic - 使用requests库爬取新浪股票、全国省市编码;
    • http_lagou - 使用来requests库爬取拉勾网职位信息;
    • douban_book - 使用scrapy框架来爬取豆瓣书籍;
    • zhuhu - 使用scrapy框架来爬取知乎信息。

联系我们

About

Python Web Crawler.Contain douban,lagou,stock etc.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages