Skip to content
This repository was archived by the owner on Sep 6, 2025. It is now read-only.

Commit b7dfa95

Browse files
committed
docs: 📓 udpate readme
1 parent 9ab10ed commit b7dfa95

File tree

1 file changed

+19
-21
lines changed

1 file changed

+19
-21
lines changed

README.md

Lines changed: 19 additions & 21 deletions
Original file line numberDiff line numberDiff line change
@@ -1,14 +1,14 @@
1-
# 晨星基金数据爬取
1+
# 国内场外基金数据爬取
22

33
# Table of Contents
44

55
- [前言](#前言)
66
- [数据爬取](#数据爬取)
7-
- [晨星列表数据](#晨星列表数据)
8-
- [晨星基金详情页数据--不变数据](#晨星基金详情页数据--不变数据)
9-
- [晨星基金详情页数据--季度变动数据](#晨星基金详情页数据--季度变动数据)
10-
- [晨星基金详情页数据--十大持仓股票信息](#晨星基金详情页数据--十大持仓股票信息)
11-
- [晨星基金经理](#晨星基金经理)
7+
- [基金列表数据](#基金列表数据)
8+
- [基金详情页数据--不变数据](#基金详情页数据--不变数据)
9+
- [基金详情页数据--季度变动数据](#基金详情页数据--季度变动数据)
10+
- [基金详情页数据--十大持仓股票信息](#基金详情页数据--十大持仓股票信息)
11+
- [基金经理](#基金经理)
1212
- [技术点](#技术点)
1313
- [爬虫流程](#爬虫流程)
1414
- [本地运行](#本地运行)
@@ -22,38 +22,38 @@
2222

2323
## 前言
2424

25-
晨星网,国际权威评级机构 Morningstar 的中国官方网站,所以它的基金数据是很有参考性的,尤其是评级数据
25+
纯粹做爬虫技术分享交流,关于各位github朋友用此仓库涉及到的技术爬取数据的用处,本人不负任何责任,请各位朋友自行判断.
2626

2727
## 数据爬取
2828

29-
### 晨星列表数据
29+
### 列表数据
3030

31-
> 爬取晨星网筛选列表,包括基金代码,基金专属代码,基金分类,三年评级,五年评级这些维度等,有了这些基本数据,为了爬取基金详情页,基金筛选等铺好数据基础。
31+
> 爬取基金筛选列表,包括基金代码,基金专属代码,基金分类,三年评级,五年评级这些维度等,有了这些基本数据,为了爬取基金详情页,基金筛选等铺好数据基础。
3232
3333
列表爬取数据截图:
3434

3535
<img src="./screenshot/fund_list.png" style="zoom:50%;" />
3636

3737

38-
### 晨星基金详情页数据--固定数据
38+
### 基金详情页数据--固定数据
3939

40-
> 爬取基金详情页的数据, 根据`晨星列表数据` 数据,遍历爬取单支基金的详情页数据(包括名称,代码,分类,成立时间,基金公司)等维度,后续还有根据这些数据爬取基金的持仓信息,为后面筛选股票做好进一步铺垫
40+
> 爬取基金详情页的数据, 根据`列表数据`,遍历爬取单支基金的详情页数据(包括名称,代码,分类,成立时间,基金公司)等维度,后续还有根据这些数据爬取基金的持仓信息,为后面筛选股票做好进一步铺垫
4141
4242
<img src="./screenshot/fund_base.png" style="zoom:50%;" />
4343

44-
### 晨星基金详情页数据--季度变动数据
44+
### 基金详情页数据--季度变动数据
4545

46-
> 爬取基金详情页的数据, 根据第二部分`晨星基础数据` 数据,过滤掉货币,纯债基金等不是标的的基金,爬取目标基金的详情页数据(包括总资产,投资风格,各种风险信息,评级,股票,债券持仓比例等)等维度
46+
> 爬取基金详情页的数据, 根据第二部分`基础数据`,过滤掉货币,纯债基金等不是标的的基金,爬取目标基金的详情页数据(包括总资产,投资风格,各种风险信息,评级,股票,债券持仓比例等)等维度
4747
4848
<img src="./screenshot/fund_season.png" style="zoom:50%;" />
4949

50-
### 晨星基金详情页数据--十大持仓股票信息
50+
### 基金详情页数据--十大持仓股票信息
5151

52-
> 爬取基金详情页的数据, 根据第二部分`晨星基础数据` 数据,过滤掉没有持有股票的基金,爬取单支基金的十大持仓股票信息(包括每只股票的代码,名称,占比)等维度
52+
> 爬取基金详情页的数据, 根据第二部分`基础数据`,过滤掉没有持有股票的基金,爬取单支基金的十大持仓股票信息(包括每只股票的代码,名称,占比)等维度
5353
5454
<img src="./screenshot/fund_stock.png" style="zoom:50%;" />
5555

56-
### 晨星基金经理
56+
### 基金经理
5757

5858
> 爬取基金详情页的数据,据此爬取基金经理数据
5959
> <img src="./screenshot/fund_manager.png" style="zoom:50%;" />
@@ -97,7 +97,7 @@ pip install -r requirements.txt
9797

9898
> `cp .env.example .env`
9999
100-
根据自己情况改环境变量值,例如晨星用户名,密码,执行特定的爬虫脚本
100+
根据自己情况改环境变量值,例如网站用户名,密码,执行特定的爬虫脚本
101101

102102
5. 运行 --执行`python main.py`
103103

@@ -174,7 +174,7 @@ input_value = input("请输入下列序号执行操作:\n \
174174

175175
1. <del>验证码识别错误的话,怎么处理</del>
176176
2. 切换分页如果是最后一页时,怎么处理下一页点击
177-
3. 晨星评级是用图片表示,如果转化成数字表示
177+
3. 基金评级是用图片表示,如果转化成数字表示
178178
4. 如何保证循环当前页与浏览器当前页一致
179179
5. 多线程爬取时,线程锁
180180
6. 同名不同类型基金爬取处理
@@ -212,9 +212,7 @@ input_value = input("请输入下列序号执行操作:\n \
212212

213213
中国平安的基金持仓明细,按基金持有市值排序,其部分数据截图如上
214214

215-
> 所有的数据统计及分析在 [anchor_outcome](https://github.com/jackluson/anchor_outcome) 子项目下
216-
217-
欢迎扫描下方微信二维码(anchor_data),关注获取更多维度统计数据
215+
在此过程中,如果遇到什么问题,欢迎扫描下方微信二维码(anchor_data),欢迎交流
218216

219217
<img width=480 src="./screenshot/qrcode_merge.png" />
220218

0 commit comments

Comments
 (0)