SyncedLeg2018

机器之腿是源于机器之心内部 Hackathon 之后产品化的成果，可以基于微信历史文章与相应的流量数据、分析统计出热点词汇。

Get Started

安装依赖

pip install -r requirements.txt

路径设置

dict_dir = '../dict'  # 词典目录
stop_words_path = '../dict/stop_words.dat'  # 停用词文件路径
excel_path = '../input/posts.xls'  # 输入 excel 路径
selected_data_save_path = '../input/select_data2018.xls'  # 筛选后的输入数据路径文件名(具体到文件名哦), 可为 None
output_dir = '../output'  # 保存热词结果 excel 的目录
comment = "20181029"  # 热词结果文件名的添加的前缀
topN = 10000  # 保留前 n 个热词

进行数据筛选(select_param)和参数选择(param_grid).
执行下列命令，运行脚本

python Analyser.py

运行说明

项目结构说明

code 为该项目的源代码。

dict 目录存放词典文件和停用词文件.

词典文件用来协助 jieba 进行分词以及来给热词结果添加标签，某个热词添加的标签为改词所属的词典文件名,因此请注意词典文件名的设置。
停用词文件后缀设置为'.dat',以方便与词典文件区分。

input 目录存放输入文件。

output 存放生成的结果。

输入文件格式要求

输入的 excel 文件应当放在 input 目录中，并包含以下字段：

title
content
readNum
likeNum
follower (optional)

数据筛选

通过修改 select_param 变量的取值完成数据的筛选。目前包含5个维度的数据筛选：

data_range: 起始日期和结束日期。例如 ['2018-01-01', '2018-10-11']
msgIdx: 例如 [2, 3, 4, 5]只保留数据中 msgIdx 字段为2，3,4和5的值。
sourceUrl: 例如[True]只保留该字段不为空的数据，[True, False]则不做筛选。
readNum_range: 阅读量的范围。
likeNum_range: 点赞量的范围。

select_param = {
    'date_range': ['2018-01-01', '2018-10-11'],  # 起始日期,结束日期
    'msgIdx': [2, 3, 4, 5, 6],  # 文章位置(例如2,3,4表示非头条文章)
    'sourceUrl': [True, False],  # 有无sourceUrl
    'readNum_range': [0, 4000000],  # 阅读数范围
    'likeNum_range': [0, 2000000]  # 点赞数范围
}

参数选择

通过修改 param_grid 完成参数的选择。

param_grid = {
        'like_weight': [0.6, 0.8, 1.0],  # 在计算热度的时候，点赞量的权重；阅读量的权重为(1-like_weight)
        'title_weight': [0.6, 0.8, 1.0],  # 在计算文章关键字的权重时，标题关键字的权重
        'cut_method': ['JTextRank', 'tdidf'],  # 计算关键字权重的算法，支持'JTextRank'和'tfidf'
        'hot_method': ['avg', 'sum'],  # 同一热词出现在多篇文章的时候，采用 'sum' 或 'avg'
        'normalize_rd_lk': [True, False],  # 是否对阅读数，点赞数的归一化
        'normalize_title_content': [True, False],  # 对标题，全文关键字权重的归一化
        'follower': [True, False],  # 是否有 follower
        'remove': ['公告 ', '活动 ', '报名 '] # 如果关键字出现在标题中，则剔除(建议后面加空格)
    }

上述参数设置会产生3*3*2*2*2*2*2种参数组合。

经过实验，下列是较为理想的参数组合, 会产生4中不同的结果。

param_grid = {
        'like_weight': [0.8],
        'title_weight': [0.8, 1.0],
        'cut_method': ['JTextRank', 'tdidf'],
        'hot_method': ['avg'],
        'normalize_rd_lk': [True],
        'normalize_title_content': [True],
        'follower': [True]  # 根据实际情况，如果数据有 follower 字段则设置为True
    }

标签添加

需要将所有的词典文件放置在 dict 目录下，并以 .txt 作为后缀名。词典一是用来方便更准确地切词，二是后续为热词添加标签，热词的标签为该热词所属词典的文件名前缀。例如'julia'出现在'tech.txt'中，那么julia会被标记'tech'标签。
新增的字典文件只要放在dict目录下即可。
停用词文件也放在dict目录下，建议以 .dat 作为停用词的文件后缀，以示区分。
如果词典存在优先级，则可以在词典文件名添加数字表示优先级，数字越大优先级越高, 例如'5tech.txt', '4org.txt', 则前者优先级高。

算法设计

文章热度计算

提供follower数据时，文章热度的计算公式为：

未提供follower数据时，文章热度的计算公式为：

文章关键词热度计算

使用JTextRank/tfidf计算文章关键词的权重 weight，然后使用如下公式计算关键词的热度：

标题全文关键词权重的计算

标题、全文均使用 jieba.cut 进行切词，关键词权重的计算可以选用JTextRank和tfidf. 根据经验，JTextRank算法保留归一化前分数 >=1 的词. 而 tfidf 算法保留归一化前分数 >=0.03 的词。

上述步骤完成后，会分别得到标题关键词的权重以及全文关键词的权重，接着通过title_weight作为权重对两者关键字权重进行合并。

同一关键字在多篇文章重复出现情况的处理

提供3种方法：

sum: 对所有文章中该关键词的词热进行累加。
avg: 对所有文章中该关键词的词热进行平均。
medium: 对所有文章中该关键词的词热取中位数。

归一化方法

阅读/点赞数归一化

normalize_rd_lk = True,使用高斯分布对阅读/点赞数进行拟合,得到0~1的归一化后的数值:

其中x为文章的阅读数/点赞数。

由于考虑到阅读/点赞数对文章热度的贡献更大，因此在计算的时候采用下面的方式计算关键词的热度：

标题/全文关键字权重归一化

使用 softmax 对标题/全文的关键字权重进行归一化。

Contributors

Chao Wen, VXenomac, JJ Weng, Mos Zhang, Chain Zhang

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
dict		dict
input		input
output		output
script		script
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SyncedLeg2018

Get Started

运行说明

项目结构说明

输入文件格式要求

数据筛选

参数选择

标签添加

算法设计

文章热度计算

文章关键词热度计算

标题全文关键词权重的计算

同一关键字在多篇文章重复出现情况的处理

归一化方法

阅读/点赞数归一化

标题/全文关键字权重归一化

Contributors

License

About

Releases

Packages

Languages

jiqizhixin/SyncedLeg2018

Folders and files

Latest commit

History

Repository files navigation

SyncedLeg2018

Get Started

运行说明

项目结构说明

输入文件格式要求

数据筛选

参数选择

标签添加

算法设计

文章热度计算

文章关键词热度计算

标题全文关键词权重的计算

同一关键字在多篇文章重复出现情况的处理

归一化方法

阅读/点赞数归一化

标题/全文关键字权重归一化

Contributors

License

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages