网站信息爬取与百度翻译api

从Experimental Factor Ontology网站爬取疾病信息并使用百度api进行翻译

本项目从文件中提取EFO编号并拼成URL，然后使用这些URL去爬取网页html并提取所需信息。
为了能够快速稳定的爬取网页的基本信息，本项目采用了如下技巧：

其中爬虫代理和翻译的功能均以模块导入的方式在主流程中执行，你可以下载代理和百度翻译
api的脚本直接用于自己的脚本。即使你想要爬取的网站并不是该网站，你依旧可以从中得到
很多启发。

python执行脚本
- proxy_for_crawler.py 代理脚本
- baidufanyiapi.py 百度翻译api脚本
- efo_crawler.py 爬取疾病描述信息脚本
- efo_translation.py 翻译脚本
项目相关文件
- disease_mappings.tsv 包含EFO编号的起始文件
- efo_annotation 爬取的疾病描述信息
- efo_translation 翻译结果文件
  
  欢迎你提交该代码的进一步改进和建议

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.vscode/.ropeproject		.vscode/.ropeproject
README.md		README.md
_config.yml		_config.yml
baidufanyiapi.py		baidufanyiapi.py
efo_crawler.py		efo_crawler.py
efo_translation.py		efo_translation.py
index.html		index.html
proxy_for_crawler.py		proxy_for_crawler.py