|
1 |
| -# 晨星基金数据爬取 |
| 1 | +# 国内场外基金数据爬取 |
2 | 2 |
|
3 | 3 | # Table of Contents
|
4 | 4 |
|
5 | 5 | - [前言](#前言)
|
6 | 6 | - [数据爬取](#数据爬取)
|
7 |
| - - [晨星列表数据](#晨星列表数据) |
8 |
| - - [晨星基金详情页数据--不变数据](#晨星基金详情页数据--不变数据) |
9 |
| - - [晨星基金详情页数据--季度变动数据](#晨星基金详情页数据--季度变动数据) |
10 |
| - - [晨星基金详情页数据--十大持仓股票信息](#晨星基金详情页数据--十大持仓股票信息) |
11 |
| - - [晨星基金经理](#晨星基金经理) |
| 7 | + - [基金列表数据](#基金列表数据) |
| 8 | + - [基金详情页数据--不变数据](#基金详情页数据--不变数据) |
| 9 | + - [基金详情页数据--季度变动数据](#基金详情页数据--季度变动数据) |
| 10 | + - [基金详情页数据--十大持仓股票信息](#基金详情页数据--十大持仓股票信息) |
| 11 | + - [基金经理](#基金经理) |
12 | 12 | - [技术点](#技术点)
|
13 | 13 | - [爬虫流程](#爬虫流程)
|
14 | 14 | - [本地运行](#本地运行)
|
|
22 | 22 |
|
23 | 23 | ## 前言
|
24 | 24 |
|
25 |
| -晨星网,国际权威评级机构 Morningstar 的中国官方网站,所以它的基金数据是很有参考性的,尤其是评级数据 |
| 25 | +纯粹做爬虫技术分享交流,关于各位github朋友用此仓库涉及到的技术爬取数据的用处,本人不负任何责任,请各位朋友自行判断. |
26 | 26 |
|
27 | 27 | ## 数据爬取
|
28 | 28 |
|
29 |
| -### 晨星列表数据 |
| 29 | +### 列表数据 |
30 | 30 |
|
31 |
| -> 爬取晨星网筛选列表,包括基金代码,基金专属代码,基金分类,三年评级,五年评级这些维度等,有了这些基本数据,为了爬取基金详情页,基金筛选等铺好数据基础。 |
| 31 | +> 爬取基金筛选列表,包括基金代码,基金专属代码,基金分类,三年评级,五年评级这些维度等,有了这些基本数据,为了爬取基金详情页,基金筛选等铺好数据基础。 |
32 | 32 |
|
33 | 33 | 列表爬取数据截图:
|
34 | 34 |
|
35 | 35 | <img src="./screenshot/fund_list.png" style="zoom:50%;" />
|
36 | 36 |
|
37 | 37 |
|
38 |
| -### 晨星基金详情页数据--固定数据 |
| 38 | +### 基金详情页数据--固定数据 |
39 | 39 |
|
40 |
| -> 爬取基金详情页的数据, 根据`晨星列表数据` 数据,遍历爬取单支基金的详情页数据(包括名称,代码,分类,成立时间,基金公司)等维度,后续还有根据这些数据爬取基金的持仓信息,为后面筛选股票做好进一步铺垫 |
| 40 | +> 爬取基金详情页的数据, 根据`列表数据`,遍历爬取单支基金的详情页数据(包括名称,代码,分类,成立时间,基金公司)等维度,后续还有根据这些数据爬取基金的持仓信息,为后面筛选股票做好进一步铺垫 |
41 | 41 |
|
42 | 42 | <img src="./screenshot/fund_base.png" style="zoom:50%;" />
|
43 | 43 |
|
44 |
| -### 晨星基金详情页数据--季度变动数据 |
| 44 | +### 基金详情页数据--季度变动数据 |
45 | 45 |
|
46 |
| -> 爬取基金详情页的数据, 根据第二部分`晨星基础数据` 数据,过滤掉货币,纯债基金等不是标的的基金,爬取目标基金的详情页数据(包括总资产,投资风格,各种风险信息,评级,股票,债券持仓比例等)等维度 |
| 46 | +> 爬取基金详情页的数据, 根据第二部分`基础数据`,过滤掉货币,纯债基金等不是标的的基金,爬取目标基金的详情页数据(包括总资产,投资风格,各种风险信息,评级,股票,债券持仓比例等)等维度 |
47 | 47 |
|
48 | 48 | <img src="./screenshot/fund_season.png" style="zoom:50%;" />
|
49 | 49 |
|
50 |
| -### 晨星基金详情页数据--十大持仓股票信息 |
| 50 | +### 基金详情页数据--十大持仓股票信息 |
51 | 51 |
|
52 |
| -> 爬取基金详情页的数据, 根据第二部分`晨星基础数据` 数据,过滤掉没有持有股票的基金,爬取单支基金的十大持仓股票信息(包括每只股票的代码,名称,占比)等维度 |
| 52 | +> 爬取基金详情页的数据, 根据第二部分`基础数据`,过滤掉没有持有股票的基金,爬取单支基金的十大持仓股票信息(包括每只股票的代码,名称,占比)等维度 |
53 | 53 |
|
54 | 54 | <img src="./screenshot/fund_stock.png" style="zoom:50%;" />
|
55 | 55 |
|
56 |
| -### 晨星基金经理 |
| 56 | +### 基金经理 |
57 | 57 |
|
58 | 58 | > 爬取基金详情页的数据,据此爬取基金经理数据
|
59 | 59 | > <img src="./screenshot/fund_manager.png" style="zoom:50%;" />
|
@@ -97,7 +97,7 @@ pip install -r requirements.txt
|
97 | 97 |
|
98 | 98 | > `cp .env.example .env`
|
99 | 99 |
|
100 |
| - 根据自己情况改环境变量值,例如晨星用户名,密码,执行特定的爬虫脚本 |
| 100 | + 根据自己情况改环境变量值,例如网站用户名,密码,执行特定的爬虫脚本 |
101 | 101 |
|
102 | 102 | 5. 运行 --执行`python main.py`
|
103 | 103 |
|
@@ -174,7 +174,7 @@ input_value = input("请输入下列序号执行操作:\n \
|
174 | 174 |
|
175 | 175 | 1. <del>验证码识别错误的话,怎么处理</del>
|
176 | 176 | 2. 切换分页如果是最后一页时,怎么处理下一页点击
|
177 |
| -3. 晨星评级是用图片表示,如果转化成数字表示 |
| 177 | +3. 基金评级是用图片表示,如果转化成数字表示 |
178 | 178 | 4. 如何保证循环当前页与浏览器当前页一致
|
179 | 179 | 5. 多线程爬取时,线程锁
|
180 | 180 | 6. 同名不同类型基金爬取处理
|
@@ -212,9 +212,7 @@ input_value = input("请输入下列序号执行操作:\n \
|
212 | 212 |
|
213 | 213 | 中国平安的基金持仓明细,按基金持有市值排序,其部分数据截图如上
|
214 | 214 |
|
215 |
| -> 所有的数据统计及分析在 [anchor_outcome](https://github.com/jackluson/anchor_outcome) 子项目下 |
216 |
| -
|
217 |
| -欢迎扫描下方微信二维码(anchor_data),关注获取更多维度统计数据 |
| 215 | +在此过程中,如果遇到什么问题,欢迎扫描下方微信二维码(anchor_data),欢迎交流 |
218 | 216 |
|
219 | 217 | <img width=480 src="./screenshot/qrcode_merge.png" />
|
220 | 218 |
|
|
0 commit comments