Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

python2.7 请指教!!! #1

Open
fuckchinaOK opened this issue Aug 17, 2018 · 7 comments
Open

python2.7 请指教!!! #1

fuckchinaOK opened this issue Aug 17, 2018 · 7 comments

Comments

@fuckchinaOK
Copy link

因为手工收集资料太慢了,所以希望用python2.7能做一些事情。
我要在特定网站( http://**.gsxt.gov.cn ) 指定搜集"特定关键词"。然后获取搜索结果的某些资料保存到Excle
表格或txt文本。

我要的资料很简单(企业名称,法人,年报中的邮箱,电话,住址。)

因为我是python2.7的新手,所以请教高手,要学习哪些python2.7库?或知识?

------------------------------------网站分析F12浏览器记录----------------------------
http://gd.gsxt.gov.cn

search_form searchForm post /corp-query-search-1.html
search keyword searchword

查询按钮 btn_query

http://gd.gsxt.gov.cn/js/subpubsys_homepage.js ( 这个JS 控制输入? )
http://gd.gsxt.gov.cn/js/geetest/gt.js ( 这个JS 验证? )

省份 province 440000/450000,460000,470000.....

地区选择 ads-sci-list area selected
data-value="0" /默认0是全部 data-value="440100" , 后面440100会增长 440200,440300...

状态选择 ads-sci-title cStatus selected data-value="0" /默认0是全部, 增长1,2,3....

搜索结果列表页面 search_list_item db
(每页10个结果)
( 点击链接,进入详细页 href= )

公司名字 f20

法人 div-user2 fa fa-user2 ml20 g3

odd even

搜索结果页数选择 pagination

首页 href="javascript:turnOverPage(0)"
当前页 current
href="javascript:turnOverPage(*)" /*号,1,2,3....

年报 annual_menu_table
查看 jumpToAnnualDetail(this) clickToDetail
地址 addrForColor1 addr
电话 telForColor1 tel
邮件 emailForColor1 email
-------------------------------------------网站分析结束------------------------------------

@mizuka-wu
Copy link
Owner

mizuka-wu commented Aug 17, 2018 via email

@fuckchinaOK
Copy link
Author

谢谢回覆。
我一般都是用python工具的, 刚刚安装了下JS环境,测试了一下你的代码。
《小微企业》每页十条,你JS只获取一条?其他的九条或其他分页,你不收集?

(要获取搜索结果的数据,一定要跳过验证码?或破解验证码?)
如果不解决和碰触验证码,或直接我手工输入或滑动点击,不能收集吗?

我要的数据,比这个《小微企业》网站列出的数据要更深入一点。

@mizuka-wu
Copy link
Owner

mizuka-wu commented Aug 17, 2018 via email

@fuckchinaOK
Copy link
Author

“完全自动化”真的很麻烦。有没有可能做到“半自动化”? 就类似游戏玩家使用的“外挂”“助手”“辅助”。
例如,我自己人工手动输入验证码或滑动点击,在搜索列表页和结果详细页,使用python2.7 获取想要的"特定资料"。保存到电子表格或文本!

@mizuka-wu
Copy link
Owner

可以是可以的,python负责打开浏览器和监听url变化就行了

@cocosdxd
Copy link

想问一下大佬 这个代码怎么跑起来

@mizuka-wu
Copy link
Owner

npm i 安装依赖之后 npm run

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants