Skip to content

Latest commit

 

History

History
49 lines (29 loc) · 752 Bytes

README.md

File metadata and controls

49 lines (29 loc) · 752 Bytes

2017年8月01日

项目开始

2017年8月02日

wap页面分析,获取数据

Q:正文获取,正则匹配

J:正则匹配,反向思路,找共同点

2017年8月6日

Q:数据库添加错误

J:最好加在一行

2017年8月10日

Q:内存损耗大大增加

J:更改过滤器,将爬取的网站的urlhas+bloom加密存储,然后再判断

2017年8月12日 Q:多任务启动 J:暂时没必要,不如多终端zho启动爬虫

'2017年8月20日' Q:基于布隆的优化,大概有1/20的重复率,过高

可能性: 确定是url问题 算法问题 中间暂停导致的问题

测试 1.增加url属性 2.夜间不间断测试 3.分别测试haslib和bloom

假设算法问题 1.优化布隆

_暂停问题_ 1.单机redis