爬虫基本流程是:获取网页数据,处理网页数据,保存处理后的数据
requests 库:
静态网页:采用get
获取
动态网页:采用post
获取
获取网页最难的地方,是获取到真正的网页地址。
我们可以右击“查看源代码”,如果网页内容里,包含你想要的部分,那超开心,直接复制网址就好了。但是一般情况下,我们会发现,原代码里面,很多信息是没有的。
举个例子,如果你打开豆瓣排行榜,你会发现,网页源代码里面,就有每一本书籍的信息。那就好了,你不需要搞什么复杂的操作,直接get
网址就好了.
但是如果我们打开QQ音乐等你下课详情页,我们会看到,网页源代码里面,并没有评论信息。那这就需要我们想办法去获取了。
还有一种情况,类似淘宝、微博等网站,有些信息,需要你账号密码登入后才能看,那就会麻烦一点。如果涉及到图像验证什么,那就会更更麻烦。
不过,兵来将挡,水来土掩,我们总会搞定哒~
BeautifulSoup库:包括解析数据和提取数据
re库:用正则化表达提取信息
openpyxl库
xlwt库
静态网站
获取本地文件ISMRM目录:urllib.request+re+os+xlwt
获取豆瓣读书排行榜:requests+BeautifulSoup+xlwt
获取扇贝打卡记录:urllib.request+re+xlwt
获取扇贝单词书:urllib.request+re+xlwt
统计扇贝半年打卡记录:urllib.request+re+xlwt+datetime
单词群打卡:urllib.request+re+xlwt+datetime
制作单词量测试软件:requests+easygui+xlwt
动态网页
获取扇贝炼句数据(包含账号密码登入):requests+json+re+xlwt