Skip to content

A project for crawling disease information of description by using multithreading and proxy in python3

Notifications You must be signed in to change notification settings

Bio-MingChen/crawling-python

Repository files navigation

网站信息爬取与百度翻译api

Experimental Factor Ontology网站爬取疾病信息并使用百度api进行翻译

项目亮点

本项目从文件中提取EFO编号并拼成URL,然后使用这些URL去爬取网页html并提取所需信息。
为了能够快速稳定的爬取网页的基本信息,本项目采用了如下技巧:

  • 爬虫浏览器伪装
  • 爬虫超时防假死设置
  • 爬虫超时重试
  • 爬虫代理
    • 代理IP爬取
    • 低延迟IP过滤
  • 多线程爬取
    • 通过信号量设置线程数
    • 设置全局锁
  • 百度翻译api(账号目前还可使用)

其中爬虫代理和翻译的功能均以模块导入的方式在主流程中执行,你可以下载代理和百度翻译
api的脚本直接用于自己的脚本。即使你想要爬取的网站并不是该网站,你依旧可以从中得到
很多启发。

文件说明

About

A project for crawling disease information of description by using multithreading and proxy in python3

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published