GitHub - tangweize/SpiderForWebOfScience: python写的一个小爬虫，爬取web of science的文献信息，包含"title","作者全名"， "作者简写","关键词","摘要"一切网页上有的信息，并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。

说明手册

整个代码参数极少，只有三个，并且都是显示易懂的参数。

整个代码运行的前提是能打开web of science并能展示出条件检索结果

整个爬虫代码在Spider_by_VZ里面只有三个主要的py文件分别如下

Main_Methods 里面包含了所有需要提取的信息抽取代码，无需关心
main是使用的入口，main里面有三个参数需要指定，具体后面阐述。
DownloadPdf 是下载web of science 直接可获取的文献pdf

main.py 参数说明：

总共有三个参数需要制定，我将分别用图片文字说明

此时我们已经打开了web of science页面，但是这时候的url链接并不符合这个代码的要求（因为没有翻页参数）
这时候，我们需要在下图箭头标志出随便输入一个页码，激活带有page参数的url。
最终，我们可以根据该页面获得main函数里面的两个参数。

url_root的设置带有page的url链接，但是不需要数字（比如上图里面的2删掉）注意：这个url_root里面是带有验证信息的，一般24小时，需要更换一次
nums_page的设置为下图圆圈里面数字,也就是总页码
filename 指定文献信息表格存的路径以及名字

环境

python 3.6
依赖的包 requests pandas
beautifulsoup4 tqdm

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.idea		.idea
Spider_by_VZ		Spider_by_VZ
assets		assets
venv		venv
.DS_Store		.DS_Store
ReadMe.md		ReadMe.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

说明手册

整个代码参数极少，只有三个，并且都是显示易懂的参数。

整个代码运行的前提是能打开web of science并能展示出条件检索结果

整个爬虫代码在Spider_by_VZ里面只有三个主要的py文件分别如下

main.py 参数说明：

环境

About

Uh oh!

Releases

Packages

Languages

tangweize/SpiderForWebOfScience

Folders and files

Latest commit

History

Repository files navigation

说明手册

整个代码参数极少，只有三个，并且都是显示易懂的参数。

整个代码运行的前提是 能打开web of science并能展示出条件检索结果

整个爬虫代码在Spider_by_VZ里面只有三个主要的py文件分别如下

main.py 参数说明：

环境

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

整个代码运行的前提是能打开web of science并能展示出条件检索结果

Packages