pengcao / python-website-clawer Public

Notifications You must be signed in to change notification settings
Fork 1
Star 2

Python Web Crawler.Contain douban,lagou,stock etc.

2 stars 1 fork Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.idea		.idea
basic		basic
douban_book		douban_book
http_lagou		http_lagou
utils		utils
zhuhu		zhuhu
README.md		README.md
scrapy.cfg		scrapy.cfg

Repository files navigation

python-website-clawer

python-website-clawer是业余时间，学习Python爬虫的例子。

介绍

网络爬虫的基本工作流程
- 首先选取一部分精心挑选的种子URL；
- 将种子URL加入任务队列；
- 从待抓取URL队列中取出待抓取的URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。
- 分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环；
- 解析下载下来的网页，将需要的数据解析出来；
- 数据持久化，保存至数据库中。
Python爬虫框架
- grab – 网络爬虫框架（基于pycurl/multicur）。
- scrapy – 网络爬虫框架。
- pyspider – 一个强大的爬虫系统。
- cola – 一个分布式爬虫框架。
- portia – 基于Scrapy的可视化爬虫。
- restkit – Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源，并围绕它建立的对象。
- demiurge – 基于PyQuery的爬虫微框架。
学习案例
- 本学习案例仅支持Python3.x；
- basic - 使用requests库爬取新浪股票、全国省市编码；
- http_lagou - 使用来requests库爬取拉勾网职位信息；
- douban_book - 使用scrapy框架来爬取豆瓣书籍；
- zhuhu - 使用scrapy框架来爬取知乎信息。

联系我们

About

Python Web Crawler.Contain douban,lagou,stock etc.

study-guide scrapy-crawler

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%