-
Notifications
You must be signed in to change notification settings - Fork 7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
python2.7 请指教!!! #1
Comments
我用的是js。不过python应该就两个吧 http的和excel的 抱歉很久不用了
发自我的 iPhone
在 2018年8月17日,下午12:37,fuckchinaOK <[email protected]<mailto:[email protected]>> 写道:
因为手工收集资料太慢了,所以希望用python2.7能做一些事情。
我要在特定网站( http://**.gsxt.gov.cn ) 指定搜集"特定关键词"。然后获取搜索结果的某些资料保存到Excle
表格或txt文本。
我要的资料很简单(企业名称,法人,年报中的邮箱,电话,住址。)
因为我是python2.7的新手,所以请教高手,要学习哪些python2.7库?或知识?
…------------------------------------网站分析F12浏览器记录----------------------------
http://gd.gsxt.gov.cn
search_form searchForm post /corp-query-search-1.html
search keyword searchword
查询按钮 btn_query
http://gd.gsxt.gov.cn/js/subpubsys_homepage.js ( 这个JS 控制输入? )
http://gd.gsxt.gov.cn/js/geetest/gt.js ( 这个JS 验证? )
省份 province 440000/450000,460000,470000.....
地区选择 ads-sci-list area selected
data-value="0" /默认0是全部 data-value="440100" , 后面440100会增长 440200,440300...
状态选择 ads-sci-title cStatus selected data-value="0" /默认0是全部, 增长1,2,3....
搜索结果列表页面 search_list_item db
(每页10个结果)
( 点击链接,进入详细页 href= )
公司名字 f20
法人 div-user2 fa fa-user2 ml20 g3
odd even
搜索结果页数选择 pagination
首页 href="javascript:turnOverPage(0)"
当前页 current
href="javascript:turnOverPage(*)" /*号,1,2,3....
年报 annual_menu_table
查看 jumpToAnnualDetail(this) clickToDetail
地址 addrForColor1 addr
电话 telForColor1 tel
邮件 emailForColor1 email
-------------------------------------------网站分析结束------------------------------------
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub<#1>, or mute the thread<https://github.com/notifications/unsubscribe-auth/AL8Pp8Cl-_BkOWFnQwDuPxvS7S8h3u77ks5uRkhzgaJpZM4WA9Go>.
|
谢谢回覆。 (要获取搜索结果的数据,一定要跳过验证码?或破解验证码?) 我要的数据,比这个《小微企业》网站列出的数据要更深入一点。 |
不收集,因为要做自动化必须破解,然后项目目的只是破解验证码加收集和关键字最接近的那条而已
在 2018年8月17日,下午10:58,fuckchinaOK <[email protected]<mailto:[email protected]>> 写道:
谢谢回覆。
我一般都是用python工具的, 刚刚安装了下JS环境,测试了一下你的代码。
《小微企业》每页十条,你JS只获取一条?其他的九条或其他分页,你不收集?
(要获取搜索结果的数据,一定要跳过验证码?或破解验证码?)
如果不解决和碰触验证码,或直接我手工输入或滑动点击,不能收集吗?
我要的数据,比这个《小微企业》网站列出的数据要更深入一点。
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub<#1 (comment)>, or mute the thread<https://github.com/notifications/unsubscribe-auth/AL8Pp4mj2qgATRAM4ex2uxVGoSs49zdcks5uRtoggaJpZM4WA9Go>.
|
“完全自动化”真的很麻烦。有没有可能做到“半自动化”? 就类似游戏玩家使用的“外挂”“助手”“辅助”。 |
可以是可以的,python负责打开浏览器和监听url变化就行了 |
想问一下大佬 这个代码怎么跑起来 |
npm i 安装依赖之后 npm run |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
因为手工收集资料太慢了,所以希望用python2.7能做一些事情。
我要在特定网站( http://**.gsxt.gov.cn ) 指定搜集"特定关键词"。然后获取搜索结果的某些资料保存到Excle
表格或txt文本。
我要的资料很简单(企业名称,法人,年报中的邮箱,电话,住址。)
因为我是python2.7的新手,所以请教高手,要学习哪些python2.7库?或知识?
------------------------------------网站分析F12浏览器记录----------------------------
http://gd.gsxt.gov.cn
search_form searchForm post /corp-query-search-1.html
search keyword searchword
查询按钮 btn_query
http://gd.gsxt.gov.cn/js/subpubsys_homepage.js ( 这个JS 控制输入? )
http://gd.gsxt.gov.cn/js/geetest/gt.js ( 这个JS 验证? )
省份 province 440000/450000,460000,470000.....
地区选择 ads-sci-list area selected
data-value="0" /默认0是全部 data-value="440100" , 后面440100会增长 440200,440300...
状态选择 ads-sci-title cStatus selected data-value="0" /默认0是全部, 增长1,2,3....
搜索结果列表页面 search_list_item db
(每页10个结果)
( 点击链接,进入详细页 href= )
公司名字 f20
法人 div-user2 fa fa-user2 ml20 g3
odd even
搜索结果页数选择 pagination
首页 href="javascript:turnOverPage(0)"
当前页 current
href="javascript:turnOverPage(*)" /*号,1,2,3....
年报 annual_menu_table
查看 jumpToAnnualDetail(this) clickToDetail
地址 addrForColor1 addr
电话 telForColor1 tel
邮件 emailForColor1 email
-------------------------------------------网站分析结束------------------------------------
The text was updated successfully, but these errors were encountered: