python2.7 请指教！！！ #1

fuckchinaOK · 2018-08-17T04:37:05Z

因为手工收集资料太慢了，所以希望用python2.7能做一些事情。
我要在特定网站( http://**.gsxt.gov.cn ) 指定搜集"特定关键词"。然后获取搜索结果的某些资料保存到Excle
表格或txt文本。

我要的资料很简单（企业名称，法人，年报中的邮箱，电话，住址。）

因为我是python2.7的新手，所以请教高手，要学习哪些python2.7库？或知识？

------------------------------------网站分析F12浏览器记录----------------------------
http://gd.gsxt.gov.cn

search_form searchForm post /corp-query-search-1.html
search keyword searchword

查询按钮 btn_query

http://gd.gsxt.gov.cn/js/subpubsys_homepage.js ( 这个JS 控制输入? )
http://gd.gsxt.gov.cn/js/geetest/gt.js ( 这个JS 验证? )

省份 province 440000/450000,460000,470000.....

地区选择 ads-sci-list area selected
data-value="0" /默认0是全部 data-value="440100" , 后面440100会增长 440200,440300...

状态选择 ads-sci-title cStatus selected data-value="0" /默认0是全部, 增长1,2,3....

搜索结果列表页面 search_list_item db
(每页10个结果)
( 点击链接，进入详细页 href= )

公司名字 f20

法人 div-user2 fa fa-user2 ml20 g3

odd even

搜索结果页数选择 pagination

首页 href="javascript:turnOverPage(0)"
当前页 current
href="javascript:turnOverPage(*)" /*号,1,2,3....

年报 annual_menu_table
查看 jumpToAnnualDetail(this) clickToDetail
地址 addrForColor1 addr
电话 telForColor1 tel
邮件 emailForColor1 email
-------------------------------------------网站分析结束------------------------------------

mizuka-wu · 2018-08-17T12:39:25Z

我用的是js。不过python应该就两个吧 http的和excel的抱歉很久不用了发自我的 iPhone 在 2018年8月17日，下午12:37，fuckchinaOK <[email protected]<mailto:[email protected]>> 写道：因为手工收集资料太慢了，所以希望用python2.7能做一些事情。我要在特定网站( http://**.gsxt.gov.cn ) 指定搜集"特定关键词"。然后获取搜索结果的某些资料保存到Excle 表格或txt文本。我要的资料很简单（企业名称，法人，年报中的邮箱，电话，住址。）因为我是python2.7的新手，所以请教高手，要学习哪些python2.7库？或知识？

…

------------------------------------网站分析F12浏览器记录---------------------------- http://gd.gsxt.gov.cn search_form searchForm post /corp-query-search-1.html search keyword searchword 查询按钮 btn_query http://gd.gsxt.gov.cn/js/subpubsys_homepage.js ( 这个JS 控制输入? ) http://gd.gsxt.gov.cn/js/geetest/gt.js ( 这个JS 验证? ) 省份 province 440000/450000,460000,470000..... 地区选择 ads-sci-list area selected data-value="0" /默认0是全部 data-value="440100" , 后面440100会增长 440200,440300... 状态选择 ads-sci-title cStatus selected data-value="0" /默认0是全部, 增长1,2,3.... 搜索结果列表页面 search_list_item db (每页10个结果) ( 点击链接，进入详细页 href= ) 公司名字 f20 法人 div-user2 fa fa-user2 ml20 g3 odd even 搜索结果页数选择 pagination 首页 href="javascript:turnOverPage(0)" 当前页 current href="javascript:turnOverPage(*)" /*号,1,2,3.... 年报 annual_menu_table 查看 jumpToAnnualDetail(this) clickToDetail 地址 addrForColor1 addr 电话 telForColor1 tel 邮件 emailForColor1 email -------------------------------------------网站分析结束------------------------------------ — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub<#1>, or mute the thread<https://github.com/notifications/unsubscribe-auth/AL8Pp8Cl-_BkOWFnQwDuPxvS7S8h3u77ks5uRkhzgaJpZM4WA9Go>.

fuckchinaOK · 2018-08-17T14:58:39Z

谢谢回覆。
我一般都是用python工具的，刚刚安装了下JS环境，测试了一下你的代码。
《小微企业》每页十条，你JS只获取一条？其他的九条或其他分页，你不收集？

（要获取搜索结果的数据，一定要跳过验证码？或破解验证码？）
如果不解决和碰触验证码，或直接我手工输入或滑动点击，不能收集吗？

我要的数据，比这个《小微企业》网站列出的数据要更深入一点。

mizuka-wu · 2018-08-17T15:10:40Z

不收集，因为要做自动化必须破解，然后项目目的只是破解验证码加收集和关键字最接近的那条而已在 2018年8月17日，下午10:58，fuckchinaOK <[email protected]<mailto:[email protected]>> 写道：谢谢回覆。我一般都是用python工具的，刚刚安装了下JS环境，测试了一下你的代码。《小微企业》每页十条，你JS只获取一条？其他的九条或其他分页，你不收集？（要获取搜索结果的数据，一定要跳过验证码？或破解验证码？）如果不解决和碰触验证码，或直接我手工输入或滑动点击，不能收集吗？我要的数据，比这个《小微企业》网站列出的数据要更深入一点。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub<#1 (comment)>, or mute the thread<https://github.com/notifications/unsubscribe-auth/AL8Pp4mj2qgATRAM4ex2uxVGoSs49zdcks5uRtoggaJpZM4WA9Go>.

fuckchinaOK · 2018-08-17T16:00:17Z

“完全自动化”真的很麻烦。有没有可能做到“半自动化”？就类似游戏玩家使用的“外挂”“助手”“辅助”。
例如，我自己人工手动输入验证码或滑动点击，在搜索列表页和结果详细页，使用python2.7 获取想要的"特定资料"。保存到电子表格或文本！

mizuka-wu · 2018-08-20T06:20:38Z

可以是可以的，python负责打开浏览器和监听url变化就行了

cocosdxd · 2020-04-14T09:35:36Z

想问一下大佬这个代码怎么跑起来

mizuka-wu · 2020-05-01T00:04:50Z

npm i 安装依赖之后 npm run

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

python2.7 请指教！！！ #1

python2.7 请指教！！！ #1

fuckchinaOK commented Aug 17, 2018

mizuka-wu commented Aug 17, 2018 via email

fuckchinaOK commented Aug 17, 2018

mizuka-wu commented Aug 17, 2018 via email

fuckchinaOK commented Aug 17, 2018

mizuka-wu commented Aug 20, 2018

cocosdxd commented Apr 14, 2020

mizuka-wu commented May 1, 2020

python2.7 请指教！！！ #1

python2.7 请指教！！！ #1

Comments

fuckchinaOK commented Aug 17, 2018

mizuka-wu commented Aug 17, 2018 via email

fuckchinaOK commented Aug 17, 2018

mizuka-wu commented Aug 17, 2018 via email

fuckchinaOK commented Aug 17, 2018

mizuka-wu commented Aug 20, 2018

cocosdxd commented Apr 14, 2020

mizuka-wu commented May 1, 2020